Znakowany fleksyjnie korpus f19

Zaplanowane badania zmienności fleksji wymagały opracowania korpusów z trzech okresów z ręcznie zweryfikowanym znakowaniem fleksyjnym. W momencie rozpoczęcia prac dostępny był ręcznie znakowany podkorpus współczesnego NKJP. Teksty półmilionowego podkorpusu barokowego zostały oznakowane w projekcie KorBa (z wykorzystaniem Anotatorni 2 w trybie AA+A). W sprawozdawanym projekcie wykonano analogiczną pracę na danych korpusu f19 tekstów polskich z lat 1830–1918 (http://www.f19.uw.edu.pl). Surowe teksty korpusu poddano przetwarzaniu według opracowanej przez nas metody, a następnie korpus o objętości 635 930 segmentów został poddany ujednoznacznieniu i korekcie w systemie Anotatornia 2 w trybie AT+A.

W obu pracach zastosowano następujący tok postępowania: przygotowany uprzednio w postaci elektronicznej transliterowany tekst korpusu był poddawany automatycznej transkrypcji; ta postać była poddawana automatycznej analizie fleksyjnej za pomocą analizatora Morfeusz z odpowiednim słownikiem i regułami segmentacji. Następnie materiał był wprowadzany do systemu Anotatornia 2, gdzie była wykonywana korekta transkrypcji; ujednoznacznienie, weryfikacja i uzupełnienie interpretacji fleksyjnych; korekta podziału na zdania. W wyniku uzyskano zweryfikowane korpusy odpowiednich okresów, w których każdy segment ma przypisaną dokładnie jedną interpretację fleksyjną. Znakowany fleksyjnie wariant korpusu f19 udostępniliśmy w wyszukiwarce MTAS. Zainteresowani badacze mogą z tej samej strony pobrać pliki źródłowe XML.


Do pobrania:

Znakowany korpus f19 w wyszukiwarce MTAS

Znakowany korpus f19 w postaci plików XML TEI