Moduły ujednoznaczniania fleksyjnego

Analizator fleksyjny Morfeusz przedstawia wynik analizy w postaci acyklicznego grafu interpretacji fleksyjnych, co pozwala przedstawić niejednoznaczność segmentacji. W tekście współczesnym dzieje się tak w nielicznych przypadkach (np. według tagsetu NKJP miałem to jeden segment rzeczownikowy lub przeszlik miał- i aglutynant -em). W tekstach dawniejszych możliwość taka pojawia się częściej ze względu na większą ruchomość aglutynantów. Ważnym osiągnięciem projektu jest opracowanie wersji tagera Concraft-PL pracującej bezpośrednio na niejednoznacznym grafie fleksyjnym Morfeusza (osiągnięto 94% poprawności ujednoznaczniania segmentacji dla tekstu barokowego).

Ręcznie weryfikowane korpusy poszczególnych okresów posłużyły do wytrenowania modeli statystycznych dla tagerów. Udało się osiągnąć wyniki zbliżone do uzyskiwanych na tekście współczesnym, co otwiera drogę do automatycznego znakowania dużych korpusów historycznych. W eksperymentach użyto tagera Concraft-PL (opartego na warunkowych polach losowych) oraz tagera Toygger (opartego na sieciach neuronowych). W eksperymentach na korpusie barokowym Concraft uzyskał poprawność 88%, a Toygger – 91%, jednak Concraft nieco lepiej radzi sobie ze słowami nieznanymi analizatorowi fleksyjnemu. W znakowaniu korpusów warto więc łączyć wyniki obu narzędzi.


Do pobrania:

Tager Concraft

Model ujednoznaczniający dla tekstów z XVII–XVIII w.

Model ujednoznaczniający dla tekstów z XIX w.