Wkrótce badacze literatury i języka otrzymają nowatorskie narzędzia oparte m.in. o sztuczną inteligencję. - Te rozwiązania otworzą nas na nowe kierunki badań - mówi prof. Mirosław Wobalis z WFPiK, koordynator Węzła Filologicznego, jednego z sześciu modułów infrastruktury, budowanych na UAM w ramach projektu DARIAH-PL.
Węzeł Filologiczny jest przedsięwzięciem będącym częścią ogólnopolskiego projektu „Cyfrowa Infrastruktura Badawcza dla Humanistyki i Nauk o Sztuce DARIAH-PL”, który realizowany będzie na naszym Uniwersytecie do końca 2023 roku. Autorzy Węzła zaplanowali dwa moduły działań: digitalizację i opracowanie źródeł (wybranych i trudnodostępnych) oraz stworzenie innowacyjnych narzędzi cyfrowych do prowadzenia badań literaturoznawczych i językoznawczych. W każdym z modułów realizowanych jest kilka szczegółowych projektów. Wśród zadań zgrupowanych w ramach modułu pierwszego znalazło się m.in. pozyskanie od Rosyjskiej Biblioteki Narodowej w Petersburgu i wstępne opracowanie archiwum „Kaliszanina. Gazety miasta Kalisza i jego okolic” z lat 1870-1892, które szczęśliwie udało się zakupić tuż przed wybuchem wojny w Ukrainie. Zadania tego podjął się prof. Bogdan Hojdis.
- „Kaliszanin”, podobnie jak inne periodyki prowincjonalne i warszawskie, miał ogromne znaczenie dla polskiej tożsamości narodowej w zaborze rosyjskim. Znajdziemy tam rozmaite informacje o regionie kaliskim, ale też drobne dzieła literackie i naukowe, recenzje teatralne czy po prostu ciekawostki z tamtego okresu. To ważne pismo, które nigdzie w Polsce nie jest dostępne w całości. Już to, że udało nam się wydostać z Rosji ponad dwa tysiące numerów „Kaliszanina” jest sukcesem. Dzięki temu przywracamy istotną część polskiego dziedzictwa kulturowego XIX wieku.- powiedział prof. Mirosław Wobalis.
Pozyskano również 990 afiszy teatralnych z lat 1887-1935 oraz „Korpus Frazeologiczny Języka Polskiego” zwany w skrócie archiwum prof. Stanisława Bąby. Digitalizacja materiałów zgromadzonych przez tego wybitnego językoznawcę z UAM była zadaniem wyjątkowo skomplikowanym i jednocześnie karkołomnym. Prof. Bąba zapisywał notatki na wszystkim, co miał pod ręką - fiszkach, zaproszeniach, pocztówkach, pudełkach po butach a nawet naklejkach na słoiki. Te rozproszone materiały, często pokryte niewyraźnym pismem, nie tylko trzeba było zeskanować, ale również odczytać. Tego zadania podjęli się prof. Jarosław Liberek z Instytutu Filologii Polskiej UAM i prof. Filip Graliński z Zakładu Przetwarzania Języka Naturalnego Wydziału Matematyki i Informatyki UAM. Do tego celu stworzono zaawansowane narzędzie informatyczne do automatycznego rozpoznawania, wyodrębniania i porządkowania wielowyrazowych jednostek metaforycznych, frazeologizmów, idiomów, przysłów, powiedzeń, sentencji, skrzydlatych słów itp. Wyjątkowość narzędzia polega na tym, że uczy się rozpoznawać i prawidłowo odczytywać metafory i frazeologizmy, z czym zwykle programy komputerowe nie dają sobie rady.
Projektowanie innowacyjnych narzędzi cyfrowych stanowi drugą, równie istotną część projektu realizowanego na Wydziale Filologii Polskiej i Klasycznej. Opracowaniem narzędzi - od koncepcji, przez prototypy aż po wersje umożliwiające ich komercjalizację zajął się interdyscyplinarny zespół.
- Największym wyzwaniem jakie stanęło przed mną jako koordynatorem Węzła Filologicznego było stworzenie zespołu specjalistów reprezentujących pozornie odległe dyscypliny. Musieliśmy wyłonić wspólną płaszczyznę porozumiewania się informatyków z filologami. To, w czym prof. Liberek widzi język, informatyk musi dostrzec dane, które ubierze w narzędzia informatyczne. Najprostszym sposobem połączenia tych dwóch obszarów było wyobrażenie sobie praktycznych narzędzi, które będą miały konkretne funkcje - wyjaśnia prof. Wobalis.
„Cyfrowe biurko badacza” to ogólna nazwa grupy narzędzi informatycznych, dostępnych poprzez standardową przeglądarkę internetową, które służą do analizy różnego rodzaju tekstów źródłowych (w tym literackich). Podstawowym zadaniem narzędzi ma być sugerowanie i wspomaganie poprawnego metodologicznie toku pracy – w tym wspierania prowadzonych cyfrowo badań nad tekstami z różnych epok. Podstawowe funkcje obejmują import danych, zamianę obrazu na tekst, automatyczną i ręczną korektę pozyskanego materiału, normalizację diachroniczną, wzbogacenie tekstu o warstwę semantyczną, automatyczną i ręczną anotację oraz wiele innych (w tym moduły wizualizacji wyników analizy tekstu lub korpusu tekstów). Wszystkie te zadania wymagają wdrożenia i powiązania ze sobą wielu cyfrowych narzędzi - od miarki ekranowej przez mechanizmy wyszukiwawcze i obliczenia statystyczne na tekście, po mechanizmy pozwalające na wykorzystanie zasobów „Semantic Web” i środowisko pozwalające na przygotowanie edycji cyfrowej publikacji. Wiele z tych narzędzi dostępnych jest w różnych zakątkach cyfrowego świata, ale dla badacza humanisty ich samodzielne wdrożenie i uruchomienie często stanowi duże wyzwanie i trudną do pokonania barierę. Nad rozwojem „biurka badacza” czuwają prof. Bogdan Hojdis wraz z informatykiem mgrem Adamem Cankudisem. Ważną rolę w tworzeniu narzędzi „biurka badacza” odgrywa podejście modułowe do narzędzi cyfrowych i pozostawienie przyszłym badaczom pełnej swobody w doborze przydatnych dla nich rozwiązań – tym samym inne będzie cyfrowe biurko językoznawcy a inne literaturoznawcy.
Moduł wizualizacji tradycyjnych i elektronicznych form twórczości literackiej, nad którym pracuje prof. Konrad Dominas wraz z mgrem Adamem Cankudisem, zakłada wykorzystanie w jednej aplikacji wielu użytecznych rozwiązań dostępnych dotychczas w postaci rozproszonych, głównie anglojęzycznych, platform. Celem tego działania jest opracowanie narzędzia webowego ukazującego relacje między bohaterami, motywami i wątkami mitycznymi w postaci rozbudowanych, interaktywnych grafów. Materiałem badawczym dla członków zespołu jest podanie o Tezeuszu, natomiast punktem wyjścia korpus wyselekcjonowanych tekstów antycznych zawierających rozmaite wersje tego mitu. Obecnie korpus ten składa się z ponad dwustu podzielonych tematycznie fragmentów, które prowadzą do konkretnych treści zarówno w oryginalne, jak i w angielskim przekładzie. W szerszej perspektywie projekt umożliwi rozbudowywanie poszczególnych części mapy o rozmaite konteksty recepcyjne: religijne, literackie, psychologiczne, językoznawcze itp.
To jeszcze nie wszystko - zespół Węzła Filologicznego w skład którego wchodzą: dr Mariusz Pisarski, informatyk Michał Furgał i prof. Elżbieta Winiecka pracuje nad innowacyjnym narzędziem do tworzenia i badania literatury elektronicznej o nazwie INKAH: Internetowe Narzędzie do Kolaboratywnej Animacji i Hipertekstu (Online Tool for Collaborative Animation and Hypertext). Inkah będzie mieć podwójną rolę. Po pierwsze będzie rozbudowaną aplikacją do tworzenia utworów e-literackich. Po drugie, dzięki nakładce badawczej, umożliwi dostęp do aktywności użytkowników. W ten sposób badacz będzie mógł obserwować rodzaje aktywności autorów i czytelników, sposoby współpracy zespołowej, sposoby i statystyki czytania. Dzięki możliwości eksportu plików, Inkah stanie się też archiwum utworów w wolnym dostępie. Bardzo istotny jest moduł kolaboratywny (czyli współpracy między użytkownikami), umożliwiający autorom wspólną pracę nad jednym utworem. To jedna z podstawowych funkcjonalności, która daje bardzo szerokie możliwości tworzenia dzieł o kilku ścieżkach narracyjnych.
- Te rozwiązania otworzą nas na nowe kierunki badań. Oczywiście te obszary były wcześniej rozwijane, ale nie na taką skalę i nie w ujęciu badawczo-komercyjnym, jak w przypadku Dariah - uważa prof. Wobalis.
Odnosząc się do wszystkich wymienionych wyżej narzędzi cyfrowych zakładamy, że po zakończeniu prac nad projektem możliwe będzie nie tylko dodawanie lub tworzenie przez badaczy dowolnych tekstów źródłowych do celów badawczych, swobodne konfigurowanie modułów „biurka badacza” ale także tworzenie zespołów badawczych w ramach pracy kooperatywnej. W związku z tym już teraz tworzone są tak zwane „scenariusze badawcze” opisujące przyszłe (na razie hipotetyczne) sposoby korzystania z opracowanych przez nas narzędzi.
Projekt rozpisany na 3 lata jest już na półmetku. Obecnie prototypy narzędzi są testowane i wkrótce autorzy nadadzą im finalny kształt. - Jestem bardzo zadowolony z tego, co robimy z zespołem. Dzięki konsorcjum Dariah tworzymy rzeczy, które sobie do tej pory jedynie wyobrażaliśmy, o których marzyliśmy. To jest niesamowite! Mamy już pomysły, jak dalej wykorzystywać tę energię, dołączać do zespołu kolejne osoby i kolejne projekty. Widzimy bardzo duży potencjał projektu, który może się stać początkiem wielkiej cyfrowej przygody - podkreśla kierownik zespołu.
Warto dodać, że wszystko, co powstaje w ramach Węzła Filologicznego będzie bezpłatnie dostępne dla doktorantów oraz naukowców z kraju i ze świata. Niemniej każdy będzie mógł skorzystać z narzędzi komercyjnie wykupując odpowiednią licencję. Platforma chmurowa będzie dostępna na stronach konsorcjum Dariah, jak również w osobnym serwisie w internecie. Osoby zainteresowane skorzystaniem z opracowywanej infrastruktury zachęcamy już teraz do kontaktu pod adresem: dariah@amu.edu.pl.
Zobacz też: Prof. Katarzyna Klessa. Nowa era humanistyki z DARIAH.lab