Zespół naukowców z UAM tworzy informatyczne narzędzia, które ułatwią analizowanie i wyszukiwanie informacji zawartych w źródłach pisanych. Badacze budują system w ramach Modułu inteligentnej analizy i datowania tekstów, jednego z elementów projektu DARIAH.PL, realizowanego w ogólnopolskim konsorcjum akademickim.
Naukowcy opracowali cztery narzędzia, których pomysł powstał na bazie wcześniej stworzonego systemu Odkrywka, służącego do wyszukiwania informacji w zdigitalizowanych dokumentach.
– Przełomem w odkrywaniu nowych faktów w naukach humanistycznych stała się digitalizacja tekstów. Dzięki niej mamy możliwość szybkiego i wygodnego dostępu do dokumentów historycznych. Liczba dokumentów dostępnych elektronicznie jest coraz większa, co może znacznie przyspieszyć rozwój badań humanistycznych – uważa prof. Krzysztof Jassem, kierownik zespołu.
Do grupy rozwijającej systemy informatyczne należą pracownicy Wydziału Matematyki i Informatyki i Wydziału Neofilologii. Jego trzon tworzą: prof. Krzysztof Jassem, prof. Piotr Wierzchoń i prof. UAM Filip Graliński, twórca systemu Odkrywka.
Narzędzia zaprojektowano z myślą o badaniach nad tekstami drukowanymi, które powstawały od wieku XIX do lat 90. minionego stulecia, zanim internet wszedł do powszechnego użytku. Celem działania jednego z nowych programów – normalizatora diachronicznego – jest uwspółcześnianie historycznych tekstów w języku polskim.
– Zmiana zapisu niektórych słów, takich jak na przykład „kolacyja”, obecnie “kolacja”, „professor” – „profesor” czy „puhar” – „puchar”, powoduje, że dziś trudno znaleźć szukane hasło w tekstach historycznych – wyjaśnia prof. Jassem.
Kolejne narzędzie dotyczy datowania. System, do którego wprowadzamy dokument, stara się określić datę powstania tekstu na podstawie jego treści i czyni to z dokładnością średnio do 14 lat. To narzędzie przyda się w sytuacji, gdy chcemy sprawdzić, czy podana data tekstu jest prawidłowa, albo jeśli nie wiemy, kiedy tekst wydrukowano.
Trzeci program potrafi uwspółcześniać synonimy. To narzędzie wyszukuje słowa historyczne i zamienia je na wyrazy współczesne o takim samym lub podobnym znaczeniu, brzmiące jednak zupełnie inaczej, na przykład „aeroplan” na „samolot”. Jak dotąd naukowcy zebrali kilka tysięcy historycznych synonimów, a także nazw instytucji (na przykład „Akademia Poznańska” – „Uniwersytet im. Adama Mickiewicza”). Program ten może pomóc wyszukiwać informacje w tekstach historycznych.
Ostatnie narzędzie umie wyszukać tę samą osobę, która występuje w tekście pod różnymi nazwami. Podajmy jako przykład bohatera „Lalki” – Stanisław Wokulski jest określany w powieści na kilka różnych sposobów („Stanisław”, „pan Stanisław”, „Wokulski”, „kupiec”) . System potrafi wykryć, że chodzi o tę samą postać.
Narzędzia mają być dostępne w sposób otwarty na stronie internetowej. Użytkownicy będą mogli na przykład wpisać tekst do okna dialogowego lub wprowadzić plik tekstowy do systemu, który następnie poda przybliżoną datę jego powstania. Będzie można też otrzymać uwspółcześniony tekst historyczny oraz taki, w którym historyczne słowa system zastąpi obecnie używanymi synonimami.
W projekcie zakupiono sprzęt o wartości kilkudziesięciu tysięcy złotych, między innymi komputery wyposażone w karty graficzne, potrzebne do wspomagania sieci neuronowych.
Projekt (POIR.04.02.00-00-D006/20) będzie realizowany do końca 2023 roku; osoby zainteresowane skorzystaniem z opracowywanej infrastruktury mogą już teraz szukać kontaktu pod adresem dariah@amu.edu.pl.
Zobacz też: DARIAH-PL. Język i muzyka w laboratorium