System Chronofleks

Głównym wynikiem projektu jest system komputerowy Chronofleks modelujący fleksję polską w ujęciu diachronicznym. System składa się z dwóch części. Pierwsza z nich może być widziana jako prototyp słownika fleksyjnego prezentującego zmienność paradygmatów fleksyjnych poszczególnych leksemów w czasie. Na podstawie danych ekstrahowanych ze znakowanych fleksyjnie korpusów zestawiane są paradygmaty fleksyjne poszczególnych leksemów. Użytkownik ma możliwość wybrania korpusów, z których pobierane są dane, jak też zadania zakresu czasowego. Dzięki temu można śledzić zmienność częstości tekstowych poszczególnych form. Na przykład poniższa ilustracja przedstawia paradygmaty leksemu KRÓL w okresach stuletnich. Można zaobserwować, jak zmniejsza się częstość formy królmi, która w XVII wieku dominuje nad królami, później jednak proporcje się odwracają.

W projekcie przyjęto zasadę uwzględniania wyłącznie poświadczonych form fleksyjnych, co zwiększa wiarygodność danych. W tradycyjnych pracach dotyczących gramatyki historycznej obowiązuje (zazwyczaj) zasada rekonstruowania form niepoświadczonych w materiale. Prowadzić to jednak może do powstawania form fikcyjnych, nigdy niewystępujących w realnych tekstach. Natomiast przedstawiane przez system Chronofleks paradygmaty mają potwierdzenie w postaci twardych danych ekstrahowanych ze znakowanych korpusów. Powstało pierwsze narzędzie dające dostęp do informacji ilościowej – możliwe jest badanie nie tylko tego, jakie formy danych leksemów są potwierdzone, ale też ile jest tych potwierdzeń i jak są one rozłożone w czasie.

Druga część systemu Chronofleks przedstawia inne spojrzenie na te same dane. Pozwala ona mianowicie generować wykresy przedstawiające zmienność w czasie frekwencji wybranych grup form fleksyjnych. Niech przykładem ich zastosowania będzie wizualizacja procesu wychodzenia z użycia tzw. form niezłożonych przymiotnika w okresie XVII-XVIII wieku. Na poniższym wykresie poszczególne krzywe odpowiadają częstości występowania (frekwencji) form niezłożonych przymiotnika w następujących przypadkach: seria 1 (czerwona) – mianownik l. poj.; seria 2 (granatowa) – dopełniacz l. poj.; seria 3 (zielona) – celownik l. poj.; seria 4 (błękitna) – biernik l. poj.; reszta (różowa) – formy pozostałych przypadków.

Z wykresu wynika, że spośród form niezłożonej odmiany przymiotnika najdłużej utrzymywały się formy mianownika l.poj. (typ gotów, zdrów) oraz biernika l.poj. (typ pięknę, ). Ich frekwencja zaczęła istotnie się zmniejszać od połowy XVII w., przy czym formy mianownikowe na początku XVIII w. jeszcze utrzymywały swą frekwencję. Formy dopełniacza (typ: (z) wysoka) i celownika (typ: (po) polsku) nie wykazują istotnych zmian.

Ciekawym uzupełnieniem powyższego wykresu może być wykres pokazujący frekwencję tych samych form, ale rozumianych jako typy, który pokazuje, od ilu leksemów przymiotnikowych tworzone były w danym okresie interesujące nas formy. Widać na nim wyraźnie, że omawiane formy leksykalizują się i ogranicza się ich zakres tylko do trzydziestu-czterdziestu leksemów (każda z form).

System Chronofleks zasilono danymi ze znakowanych korpusów tekstów z 3 okresów: 1601–1772, 1830–1918 i współczesnego. Wymagało to opracowania omówionych w następnych punktach narzędzi komputerowych i prac anotacyjnych.