Przetwarzanie języka naturalnego polega na takim przekształcaniu tekstów, aby uzyskać ustrukturyzowane pod dowolnym względem dane, często powiązane z wynikiem naukowym. Z dr Filipem Gralińskim z Wydziału Matematyki i Informatyki o leksykografii w świecie wirtualnym rozmawia Jagoda Haloszka.
Skąd w panu zamiłowanie do języka polskiego? Jest pan z wykształcenia informatykiem.
Tak, jestem informatykiem. Natomiast moje zainteresowania badawcze od zawsze były na styku informatyki i humanistyki, a w szczególności językoznawstwa. Obejmowały dziedzinę nazywaną przetwarzaniem języka naturalnego albo lingwistyką komputerową. Moje zainteresowania szły najpierw w stronę bardziej teoretyczną, natomiast później zacząłem zaprzęgać komputer do przetwarzania rzeczywistych, prawdziwych tekstów, które mamy w Internecie. To też wiązało się trochę z moimi innymi zainteresowaniami, bowiem interesuję się również amatorsko folklorem, przede wszystkim folklorem współczesnym. Zaczęło się to od łańcuszków św. Antoniego, później zająłem się legendami miejskimi. Niektóre z nich są humorystyczne, ale zdarzają się też mrożące krew w żyłach. Efektem tych moich zainteresowań jest książka pt. Znikająca nerka, opisująca osiemdziesiąt trzy historie, które „zdarzyły się z pewnością wam lub waszym znajomym”.
Na czym polega przetwarzanie języka naturalnego?
Przetwarzanie języka naturalnego polega na takim przekształcaniu tekstów czy potoku mowy, aby uzyskać ustrukturyzowane pod dowolnym względem dane, często powiązane z wynikiem naukowym. Do tego dochodzą aspekty związane z rozumieniem, tłumaczeniem czy wreszcie generowaniem języka naturalnego przez komputer jak sterowanie głosem, systemy dialogowe itp.
Wspomniał pan o swoich zainteresowaniach legendami miejskimi. Z pewnością wtedy przydawała się specjalistycznie zaprojektowana i opracowana wyszukiwarka.
Tak. Dzięki niej odkryłem wiele nowych, nieznanych legend, ale również z pomocą przyszli mi internauci, którzy podsyłali historie. Okazywało się, że można je wyszukiwać przez charakterystyczne frazy np. „znajomy znajomego opowiadał”. Co zabawne, bardzo dobrym sposobem wyszukiwania legend miejskich są frazy, np. „autentyczna opowieść”, „rzekomo prawdziwa historia”. Rzeczywistość Internetu zaczęła się zmieniać, co zniechęciło mnie do wyszukiwania tekstów. Stwierdziłem wtedy, że trzeba zacząć to jakoś automatyzować.
Czyli krótko mówiąc pasja pomogła Panu w pracy zawodowej.
Tak. Moje pół-badawcze zainteresowania folklorystyką zaczęły się kierować ku przeszłości. Odkryłem, że w Polsce dokonano wielkiego wysiłku digitalizacyjnego (powstanie w roku 2002 Wielkopolskiej Biblioteki Cyfrowej) jeśli chodzi o nasze dziedzictwo kulturowe, m.in. stare gazety i książki. Myślę, że możemy być z tego jako Polacy dumni. Wpadłem na pomysł, aby szukać protoplastów tych legend. Okazywało się, że te teksty były bardziej dostępne niż teraz. Zacząłem się zajmować przetwarzaniem języka naturalnego w wymiarze diachronicznym, tzn. aby badać teksty z uwzględnieniem czasu.
Dla matematyka musiało być to bardzo ciekawe.
Zgadzam się. To jest ciekawe z różnych powodów, nie tylko matematycznych, ale też językoznawczych i informatycznych. Dla matematyków ciekawe jest to, że łączy się aspekt ciągłości, ponieważ czas jest ciągły, a język jest, jak to mówimy, dyskretny, czyli podzielony na wyraźne jednostki: zdania, wyrazy, głoski. Natomiast jeśli chodzi o mnie, to skupiłem się na tym jak zmieniał się język polski, jak zmieniały się jego konwencje, zapis czy szyk, a także jakie nowe wyrazy się pojawiły, czy też zniknęły z naszego systemu językowego. Udało nam się zebrać bardzo duży ponad dwustuletni korpus diachroniczny. Dzięki temu, że te masy tekstów m.in. z XIX i XX wieku są bardzo duże, można stosować metody informatyczne oparte na maszynowym liczeniu czy sztucznej inteligencji.
Czytaj także: Łąkotka prosto z drukarki? Już za chwilę
Jak się później okazało, nie był pan jedynym w tej dziedzinie. Dzięki pańskiej pracy poznał pan prof. Piotra Wierzchonia z Instytutu Językoznawstwa.
Tak. W pewnym momencie zorientowałem się, że podobnymi problemami zajmuje się językoznawca prof. Piotr Wierzchoń z Instytutu Językoznawstwa. Nie wiem, czy to był duch czasu, czy duch miejsca. Zamiast ze sobą konkurować – połączyliśmy siły.
I wtedy udało wam się uzyskać grant „50 000 słów”.
To nasz pierwszy wspólny grant. Piotr Wierzchoń zajmował się takimi działaniami ekscerpcyjnymi od roku 2005 i doszedł do imponujących wyników pod względem ilościowym. Prof. Bogdan Walczak stwierdził w okolicznościowej pracy Językoznawstwo w Polsce. Kierunki badań i perspektywy rozwoju, że obecnie Wierzchoń w praktyce zmonopolizował rynek ekscerpcji diachronicznej. Grant jest na pomysł stworzenia indeksu tematycznego z polszczyzny międzywojennej. Czasem słyszy się mylne tezy, że gwałtowny wzrost bogactwa polszczyzny nastąpił po II wojnie światowej. My natomiast po prostu pokazujemy – na przykład w pracy „Z kart historii „parcia na” neologizmy”, opublikowanej w „Poradniku Językowym”, że to fałszywy pogląd. Już przed wojną bowiem w wielu dziedzinach nauki i życia polszczyzna była bogata leksykalnie w wielu wymiarach.
Z jakich materiałów korzystacie?
Działamy przede wszystkim na wycinkach, które znajdujemy w starych gazetach, dotyczących codzienności. Musimy pamiętać, że te stare teksty mają swoją specyfikę. W 1936 r. była reforma ortograficzna, np. słowo „puchar” pisało się przez samo h. Teksty też podlegają procesowi OCR-owania, czyli zamieniania obrazu na tekst. Jest to skomplikowany proces, ponieważ stare teksty mają różne czcionki, są poniszczone czy też poplamione, a trzeba z nich wydobyć prawidłowy zapis. To zupełnie osobna dziedzina wiedzy.
Powstał również blog Re-research. pl, gdzie zamieszczacie efekty swojej pracy.
Blog ma charakter trochę popularnonaukowy, a trochę naukowy. Z jednej strony chcemy dzielić się osiągnięciami naukowymi, z drugiej chcemy też wyśledzić i zaprezentować jakieś ciekawostki ze starych gazet.
Z pracą chronologizacyjną wiąże się również redatacja wyrazów.
Takim naszym feblikiem jest datowanie słów czyli właśnie redatacja. Ta operacja podbudowana jest stosunkowo zaawansowanym aparatem naukowym opracowanym dekadę temu przez Piotra Wierzchonia i stale aktualizowanym. Bardzo nas interesuje pokazywanie, że słowa pojawiały się wcześniej niż do tej pory naukowcy sądzili. Ogłosiliśmy nawet kilka konkursów pt. „Kto da wcześniej?”, czyli mamy jakieś swoje ustalenia, których jesteśmy pewni, ale okazuje się czasem – choć bardzo rzadko – że są od nas po prostu lepsi w datowaniu. To nas cieszy, bo w ten sposób rozwija się dyscyplina. 20 złotych wygranej w konkursie udało nam się już wypłacić. Taka redatacja to ciekawostka, ale mająca zarazem duże znaczenie językoznawcze. Wielu nieprofesjonalistów np. hobbystów to również interesuje. Na różnych forach można znaleźć dyskusje nad pochodzeniem i datowaniem pewnych słów czy fraz.
Czy stworzyliście już specjalny algorytm, który pozwoli zebrać wszystko do jednego worka?
Do tego potrzebny jest cały potok przetwarzania. Najpierw trzeba zebrać metadane, czyli dane o danych. Nas zawsze interesuje data powstania tekstu. Potem teksty trzeba oczyścić z błędów OCR-owych; systemy OCR mają tendencję do halucynowania („wymyślania”) poszczególnych słów np. w przedwojennym „internacie” dopatrują się „internetu”. Dokonujemy również normalizacji diachronicznej. Chcemy mieć skompletowaną bazę fotokorpusową, ponieważ nie wystarcza nam sam tekst, ale również staramy się pokazać, jak on wyglądał w oryginale. W kolejnym kroku dzięki temu możemy badać zjawiska społeczne, przemiany czy też konkretne wydarzenia.
Współpracujecie również wokół Narodowego Fotokorpusu Języka Polskiego. Jak on działa?
Na razie działa on w wersji beta. Dzięki korpusowi możemy ujrzeć różne słowa w kontekście historycznym XX wieku, wyszukiwać je wedle prefiksów czy też końcówek. Jest to przede wszystkim narzędzie pracy dla językoznawcy, który może badać sposoby tworzenia neologizmów i rozwój słownictwa. Tworzymy również własne systemy wyszukiwawcze. Mamy nadzieję, że kiedyś na bazie naszych doświadczeń powstanie „polskie diachroniczne Google”, z którego będą mogli korzystać różni badacze.