Moduły analizy fleksyjnej

Słownik barokowy

Analizator Morfeusz do działania potrzebuje słownika w postaci listy form fleksyjnych, czyli słów wraz z ich interpretacjami. Podstawowym źródłem takich danych dla współczesnej polszczyzny jest Słownik gramatyczny języka polskiego, w wypadku polszczyzny dawniejszej niezbędna jest dodatkowa lista form niewystępujących w tekstach współczesnych. Może ona pochodzić z innego słownika lub powstawać w wyniku modyfikacji danych współczesnych. Do stworzenia słownika fleksyjnego Morfeusza dla tekstów z XVII i XVIII wieku, wykorzystano obie metody, choć ogromna większość danych została uzyskania za pomocą drugiej z nich dzięki temu, że trzon danych SGJP stanowi siatka haseł SJPDor., którego zasób leksykalny sięga ostatniej ćwierci XVIII wieku. Słownik ten zawiera słownictwo dawne i przestarzałe, które w tekstach z XVII, XVIII czy XIX w. jest jeszcze w ogólnym użyciu.

Modyfikacja danych SGJP była dwuetapowa: najpierw modyfikowany był schemat eksportu danych z systemu Kuźnia (element modelu fleksyjnego SGJP odpowiadający za odwzorowanie tzw. form bazowych we wszystkie formy leksemu), następnie wyeksportowane dane podlegały dalszej modyfikacji. Z form bazowych SGJP generowane są niektóre dawne regularne formy fleksyjne, na przykład formy rozkazujące typu piszwa, piszta, formy przeszłe typu pisałaśwa, pisałaśta, itd.

Drugim źródłem danych fleksyjnych jest informacja fleksyjna pochodząca z Elektronicznego słownika języka polskiego XVII i XVIII wieku (e-SXVII), w którym notowano w poszczególnych hasłach formy zaświadczone w kanonie tekstów słownika. Paradygmaty fleksyjne w e-SXVII są właściwie zawsze niekompletne, a bardzo często hasła zawierają jedynie formy hasłowe. W efekcie 39 tys. haseł e-SXVII odpowiada zaledwie ok. 76 tys. form fleksyjnych. Dane te zostały skonwertowane do tagsetu Korby i dołączone do słownika. Zbiór został powiększony o niektóre formy regularnie tworzone od tych zanotowanych, w wyniku czego uzyskano łącznie prawie 100 tys. form fleksyjnych. Zastosowano także procedurę rozszerzenia paradygmatów na podstawie paradygmatów innych leksemów, które odmieniają się w taki sam sposób, dzięki czemu powiększono zbiór do 160 tys. form.

Oprócz zbioru form fleksyjnych analizator fleksyjny Morfeusz wymaga zbioru reguł segmentacyjnych, które pozwalają analizować słowa tekstowe, których interpretacja składa się z więcej niż jednego segmentu. Zbiór reguł segmentacyjnych został istotnie zmodyfikowany w porównaniu ze zbiorem reguł dla analizatora polszczyzny współczesnej. Uwzględniono m.in. możliwość zapisu partykuły nie łącznie z formami czasownikowymi, przyłączenia aglutynantów do szerszej klasy form niż współcześnie, pisownię przyimków łącznie z następującą formą.

Słownik dziewiętnastowieczny

Procedura tworzenia słownika fleksyjnego dla korpusu tekstów z lat 1830–1918 jest uproszczoną wersją procedury opisanej powyżej. Dla XIX wieku analizator korzysta wyłącznie ze zmodyfikowanych danych SGJP. Zasób leksykalny SGJP (czyli w praktyce SJPDor.) okazał się do tego celu wystarczający, ponieważ odsetek form nierozpoznanych dla tekstów z okresu 1830-1918 jest niemal równie niski jak Morfeusza współczesnego dla tekstów współczesnych.

Najważniejszą różnicą w tagsecie, w stosunku do współczesnego, jest brak kategorii akomodacyjności liczebników. Dotworzone zostają charakterystyczne formy przymiotnikowe z zakończeniami -em, -emi, a także formy mianownika, biernika i wołacza liczby mnogiej niektórych rzeczowników m3 typu talenta, konkursa, efekta. Dla rzeczowników m1 zakończonych na -or, -er, -yk, -s dotworzone zostają formy mianownika i wołacza lmn. z zakończeniem -owie (współcześnie częściej mają one zakończenie -y/-i). Dla form rzeczowników żeńskich zakończonych na -ia lub -ja utworzona zostaje alternatywna forma biernika lp. z końcówką (widzę instytucją). Dla form rzeczowników nijakich zakończonych na -two dotworzona zostaje oboczna dawna forma narzęcznika lmn. na -y (bogactwy).

Rozszerzone reguły segmentacji obejmują m.in.: łączną pisownię nie z czasownikami; łączną pisownię by z bezokolicznikami (np. umrzećbym); szczątkową łączną pisownię przyimków z rzeczownikami, zaimkami, przymiotnikami i przysłówkami (np. odemnie, pokryjomu, zwolna).

Słownik współczesny

Współczesny słownik Morfeusza, bazujący na danych SGJP jest bardzo obszerny. W trzecim wydaniu osiągnął on 265 000 haseł odpowiadających ok. 4 milionom form fleksyjnych. Z punktu widzenia znakowania fleksyjnego tekstów można jednak uznać, że niedoreprezentowane w słowniku były nazwy własne. Dlatego w ramach sprawozdawanego projektu rozszerzyliśmy słownik współczesny o wybór nazw miejscowości i nazwisk. Wprowadzono według oficjalnego spisu urzędowego wszystkie nazwy miejscowości polskich (miast, wsi, dzielnic i części miast), derywowane od nich przymiotniki, a dla miast — derywowane nazwy mieszkańców. Nazwiska zostały wybrane według poświadczonej liczby nosicieli — co najmniej 5. Wymagało to rozszerzenia modelu fleksyjnego SGJP (wzorów odmiany), ponieważ odmiana nazw własnych często różni się od odmiany rzeczowników pospolitych. W wyniku prac dodano ok. 27 000 nazw miejscowości i derywatów oraz 90 000 nazwisk. Ulepszony słownik został udostępniony również w postaci danych dla analizatora Morfeusz, liczba form rozpoznawanych obecnie przez analizator wynosi ponad 4 987 000.


Do pobrania:

Analizator fleksyjny Morfeusz

Słownik analizatora dla tekstów z XVII–XVIII w.

Słownik analizatora dla tekstów z XIX w.