Reguły transkrypcyjne

W wypadku korpusów historycznych stosuje się reprezentację tekstu w dwóch postaciach. Postać pierwsza, transliteracja, jest z założenia jak najbliższa oryginalnej reprezentacji tekstu. W takim zapisie tekstów dawnych ujawnia się jednak ogromna wielość wariantów ortograficznych zapisu, różniąca poszczególnych piszących, ale często pokazująca i niekonsekwencje konkretnego autora. Do interpretacji fleksyjnej wygodniej jest więc wprowadzić drugą postać, transkrypcję (zwaną też normalizacją), która pozwala abstrahować od wariantów ortograficznych. Przyjęliśmy taką metodę, przy czym normalizacji poddano wyłącznie warianty ortograficzne, ale zachowano dawne formy fleksyjne.

W przetwarzaniu korpusów zastosowano metodę regułowej transkrypcji tekstów z wykorzystaniem narzędzia opracowanego pod kierunkiem J.S. Bienia w projekcie IMPACT. Na potrzeby przetwarzania tekstów barokowych zbiór reguł istotnie rozbudowano (przez analizę błędów w opracowywanym korpusie). Osiągnął on wielkość około 3000 reguł. Do tekstu XIX-wiecznego zastosowano ten sam mechanizm, redukując jednak znacznie zestaw reguł. Transkrypcja w obu korpusach ręcznie ujednoznacznianych została poddana korekcie (w systemie Anotatornia 2).


Do pobrania:

Narzędzie do transkrypcji

Reguły transkrypcji tekstów z XVII–XVIII w.

Reguły transkrypcji tekstów z XIX w.

(Reguły transkrypcji tekstów barokowych zostały opracowane w projekcie Korba)