System Anotatornia 2

System Anotatornia 2 służy do ręcznego ujednoznaczniania i weryfikacji znakowania fleksyjnego tekstu historycznego. Rozważaliśmy wykorzystanie w projekcie starszej aplikacji webowej Anotatornia, opracowanej na potrzeby znakowania NKJP. W związku z szybkimi zmianami technologii aplikacji webowych jej wdrożenie okazało się jednak praktycznie niewykonalne. Co więcej, przetwarzanie korpusów historycznych wiąże się ze specyficznymi uwarunkowaniami: tekst istnieje równolegle w postaci transliterowanej i transkrybowanej. Typowym wymaganiem jest też zachowywanie w korpusie informacji o numerach stron oryginałów, z których pochodzą poszczególne wyrazy. W związku z tym podjęliśmy decyzję o implementacji nowego narzędzia nazwanego Anotatornia 2, dopasowanego do potrzeb znakowania korpusów historycznych. Ma ono postać aplikacji webowej pozwalającej na pracę grupy anotatorów nad przydzielanymi im próbkami korpusu. Zakłada się, że do narzędzia wprowadzany jest tekst po wstępnym przetworzeniu analizatorem fleksyjnym z odpowiednim słownikiem. Zadaniem użytkowników systemu jest: weryfikacja i uzupełnienie znaczników fleksyjnych dostarczonych przez analizator fleksyjny; ujednoznacznianie analiz; korekta transkrypcji oraz korekta podziału na zdania.

W znakowaniu korpusów powszechnie przyjęta jest procedura, w której każda próbka korpusowa jest znakowana niezależnie przez dwóch anotatorów, a konflikty między ich odpowiedziami rozstrzyga arbiter („superanotator”) — tryb ten nazywamy AA+A. W systemie Anotatornia 2 zaproponowaliśmy dodatkowo tryb, w którym jeden z anotatorów zostaje zastąpiony programem ujednoznaczniającym (tagerem): każda próbka korpusowa jest znakowana tylko przez jednego anotatora, wynik jego pracy jest porównywany z wynikami tagera, a konflikty rozstrzyga arbiter (tryb AT+A). Jak wskazują nasze eksperymenty (następny podpunkt), tryb ten zmniejsza o połowę ilość pracy anotatorów, akceptowalnie zwiększa ilość pracy arbitra i nie powoduje pogorszenia jakości wyników (przy czym część konfliktów jest faktycznie rozstrzygana na rzecz tagera, pozwala on więc wyłapać część błędów człowieka).


Do pobrania:

System Anotatornia 2