Z językoznawcą prof. Piotrem Wierzchoniem, kierownikiem projektu „Od legendy miejskiej do fake news. Globalny detektor współczesnego fałszu”, finansowanego z Programu Infostrateg z NCBiR rozmawia Ewa Konarzewska-Michalak.
Od „legendy miejskiej do fake news...” - ciekawy tytuł projektu.
Dziękuję.
Co łączy te dwie rzeczy?
Sensacyjność, niesamowitość, łatwość rozprzestrzeniania się, wykorzystanie stereotypów i uprzedzeń, efekt „ziarna prawdy”. W pewnej chwili olśniło mnie, że dzisiejszy fake news to po prostu odmianka dawnej legendy miejskiej, z, nomen omen, czarną wołgą na czele. A z kolei skąd ta intuicja, aby naukowo łączyć fakenewsowość z legendami miejskimi? Od dawna interesowaliśmy się historyjkami z PRL-u, gromadziliśmy te mikroteksty (tu punktem startu była dla nas książka mojego guru uczenia maszynowego, kolegi Filipa Gralińskiego: Znikająca nerka. Mały leksykon współczesnych legend miejskich). Równolegle do naszego myślenia weszła cała folklorystyka miejska, folklorystyka 2.0 czy pojęcie cyfrowego tubylca (ang. digital native). W przypadku mierzenia się z modelami detekcji fake news dobrze jest mieć obeznanie teoretycznoliterackie (tu przypominam sobie niezawodne zajęcia z poetyki czy teorii literatury na studiach filologii polskiej; pozornie niepraktyczna wówczas wiedza polonistyczna czy językoznawcza, czy w ogóle humanistyczna – obecnie to po prostu „żyła złota” albo: „złoty interes”). Do tego: interesowaliśmy się kategoriami zbiorowej paniki, teorii spiskowych, zmowy, linczu, klątw, fałszywych opinii, opinii środowiskowych, kategorii autorytetu itp. Ciekawe jest też śledzenie fake news w prasie przełomu XIX i XX wieku, w nader różnorodnej prasie XX-lecia międzywojennego (w roku 1939 krajowa propaganda głosiła, że piloci niemieccy mają mundury z papieru, a zatem ich ataki są bezcelowe, bo i tak szybko spłoną) i głębiej: aż do Bogurodzicy (no, przesadziłem, powiedzmy, że aż do początku druku).
Postanowiliśmy stworzyć detektor fake news, oparty na pierwotnym pomyśle: skoro chcesz śledzić fake newsy Anno Domini 2021, to rozpoznaj to, co działo się dotąd. Mowa tu o sytuacji sprzed czterech lat, kiedy człowiek ambitnie pokładał nadzieję, że narzędzia wykorzystywane w uczeniu maszynowym pozwolą na bezbłędne predykcje prawdy i fałszu. Ale nadszedł dzień, w którym wielkie modele językowe (LLM-y) wywróciły wszystko do góry nogami (ale o tym później). Korzyści, jakie daje praca nad takim detektorem są dwojakie: praktyczne oraz teoretyczne. Te pierwsze wynikają z realnej pracy, polegającej na automatycznym rozpoznaniu, która informacja w danej chwili jest fałszywa, a która prawdziwa. W praktyce – każda redakcja chciałaby dysponować takim urządzeniem. A szerzej – chyba każdy z nas. Korzyści teoretyczne to te związane z wypracowywaniem teorii i metodologii budowy tego typu systemów. Podsumowując: korzyści dla nauki i badaczy są fundamentalne i wielowymiarowe. Po pierwsze, detektor fake newsów dostarcza bezcennych danych o ewolucji wzorców dezinformacji, pozwalając badaczom identyfikować nowe techniki manipulacji i adaptować do nich metody obronne. Po drugie, analiza zebranych danych umożliwia prowadzenie badań interdyscyplinarnych na styku socjologii, psychologii społecznej i lingwistyki – możemy precyzyjnie śledzić, jak rozprzestrzeniają się fałszywe informacje w różnych grupach społecznych i kulturowych. Po trzecie, detektor staje się cennym narzędziem w badaniach nad mechanizmami poznawczymi człowieka – pokazuje, jakie cechy narracji sprawiają, że ludzie uznają pewne informacje za wiarygodne. Wreszcie, dla teoretyków komunikacji i medioznawców, stanowi on unikalną możliwość badania w czasie rzeczywistym dynamiki przepływu informacji w przestrzeni cyfrowej, co pozwala na weryfikację i udoskonalanie istniejących teorii komunikacji masowej. Te wszystkie aspekty przyczyniają się do rozwoju nowych metodologii badawczych i pogłębienia naszego rozumienia współczesnej infosfery.
Jakie metody badawcze stosowane są w analizie sensacyjnych treści literackich?
Korzystamy z metod analiz porównawczych, takich jak indeksowanie i katalogowanie motywów oraz wątków narracyjnych. To podejście ma długą tradycję w badaniach literatury ustnej (tu promujemy kluczową badawczo, choć też życiowo, kategorię plotki: plotki rozumianej negatywnie, jak i pozytywnie) i zaowocowało powstaniem międzynarodowych katalogów motywów i wątków. Chodzi o to, że w pewnych kręgach to samo nas cieszy i smuci. O ile samo to stwierdzenie nie jest nowatorskie (rzecz jest opisana w pracach etnograficznych, antropologicznych, psychologicznych, socjologicznych itp.), o tyle pokazanie tych tendencji na, powiedzmy, 10 milionach tekstów (co jest możliwe od niedawna), stanowi pewne novum operacyjne. Tak więc w naszych badaniach kluczowe jest rozróżnienie trzech poziomów sensacyjnych treści: motywu, wątku i wariantu.
Co oznacza podział na motyw, wątek i wariant?
Motyw to podstawowa jednostka narracyjna. Na przykład motyw „tajemniczego czarnego pojazdu” może występować jako „czarna wołga porywająca dzieci” lub „szatan w czarnym BMW”. Ale studiując prasę XIX wieku, łatwo natrafić na “czarne karoce”. Wątek to abstrakcyjny model fabuły, zawierający różne odmiany i wariacje danej opowieści, np. typowe historie o zatrutych cukierkach. Wariant to konkretna realizacja wątku – tekst w określonym wykonaniu, np. prasowa notatka czy zapis etnograficzny. Niektóre legendy miejskie mają po 6–7 wariantów.
Jak wspomniane metody pomagają w analizie sensacyjnych treści oraz dezinformacji?
Pozwalają zrozumieć, jak te same motywy funkcjonują w różnych kontekstach i epokach, zyskując odmienne znaczenia. Dzięki temu możemy badać ich rolę w kulturze, komunikacji masowej, social mediach itp., słowem – możemy monitorować wywoływane emocje oraz ich wpływ na społeczeństwo, od XIX wieku po współczesność.
„Lista przebojów” wśród polskich legend miejskich okresu PRL to trzy lęki: przed chorobą, przed obcokrajowcami, przed sankcją ze względu na nieobyczajne zachowania. I tak, do lat 90. XX wieku: straszył wirus HIV (np. intencjonalne zakażanie strzykawką przez obłąkańca), obywatel Turcji oraz zdrada zazwyczaj z hydraulikiem. A oto minikonkurs - do jakiego typu przyporządkujemy te tytuły realnych sensacyjnych historyjek: Hydraulik pod zlewem, Wybuchający sedes, Przerwana operacja, Zjadła Murzynowi śniadanie, Szczęka w wodzie, Pies zjadł szczękę, Wypił szkła kontaktowe, Narciarka bez spodni, Nagi na schodach, Dywan dwa razy sprzedany, Sprzedał kobietę, Sprzedał żonę, Jądra w słoiku. Udana (niestety dla odbiorcy) dezinformacja korzysta z tych właśnie kierunków zaciekawiania, to znaczy: nasze zdrowie, ci obcy, ich amorki.
Skąd jeszcze czerpią państwo dane do trenowania modeli?
Z analizy i opisu tekstów (fachowo mówi się: anotacja) medialnych takich jak: informacje z gazet, tweety, posty z Facebooka itp. Anotacja to proces oznaczania lub opisywania danych dodatkowymi informacjami (metadanymi), które pomagają w ich klasyfikacji, analizie lub interpretacji. W kontekście uczenia maszynowego i przetwarzania języka naturalnego, anotacja jest kluczowym etapem przygotowania danych treningowych. O, inaczej: anotacja – sztuka oznaczania rzeczywistości znacznikami, które pomagają nam (i maszynom) zrozumieć, co się dzieje. Czasem jeden ekspert oznaczy tekst jako [TOTALNA_BZDURA], a drugi jako [MOŻE_BYĆ_COŚ_NA_RZECZY] – i właśnie dlatego potrzebujemy wielu „degustatorów informacji”. Anotowaliśmy tweety w czasach, kiedy jeszcze Tweeter był Tweeterem, ale co więcej – udostępniał poręczny kanał dla nieodpłatnego pobierania masowych danych, czyli tych oto tweetów. Aby zdać relację, w przybliżeniu, z tego, co robimy po stronie danych dla uczenia modeli, oto przykładowe pytania w takich analizach: Określ rodzaj tekstu, Jakie emocje wywołuje w Tobie tekst?, Jakie treści dominują w tekście?, Czy tekst ma charakter perswazyjny?, Kto Twoim zdaniem jest potencjalnym odbiorcą tekstu?, Czy autor tekstu jest przekonany, że informacje, o których pisze, są prawdziwe?, Czy autor tekstu powołuje się na źródła przywoływanych informacji?, Jeśli tekst zawiera nieprawdziwe informacje, to czy Twoim zdaniem autor tekstu wie, że przekazuje nieprawdziwe informacje?, Czy wcześniej spotkałeś się z nieprawdziwymi informacjami zawartymi w tekście?, Jak bardzo szkodliwe społecznie są nieprawdziwe informacje zawarte w tekście?, Jaki rodzaj zagrożenia mogą stanowić nieprawdziwe informacje zawarte w tekście? itp.
Jak buduje się tego typu detektory oparte na sztucznej inteligencji?
Taki detektor to rasowy klasyfikator: zwraca wartość z przedziału od 0 (fałsz) do 1 (pewna prawda). Wzięty obecnie historyk i myśliciel, Juwal Noach Harari twierdzi (z czym akurat się zgadzam), że koszt wyprodukowania fałszu jest nieporównywalnie niższy niż koszt wyprodukowania prawdy. Jeszcze do roku 2020 (czyli do rozwiązań z rodziny GPT-2) cena wytworzenia fake newsa była stosunkowo wysoka. Ktoś (wówczas mówiło się: „farma trolli”) musiał usiąść do klawiatury, wymyślić „story”, całość spisać w niegłupi, przekonujący sposób. To trwało i kosztowało. Zjawisko tzw. sztucznej inteligencji w wydaniu z trzeciej dekady XXI wieku jest już porównywane swoją rangą nie do wynalezienia Internetu, ale do umiejętności posługiwania się ogniem. Robi wrażenie! Obecnie wyprodukowanie 1 miliona fake newsów kosztuje kilka dolarów, a w bardziej bystrych lokalnych rozwiązaniach (modele na naszych dyskach) – tyle, co prąd. Czyli możemy układać pasjans lub oglądać kotki, a w tym czasie (i, co ważne, na tym samym prądzie) tworzy się nam milion fałszywych informacji.
Kolejna rzecz - klasyczna, filologiczna analiza jednego newsa trwa kilka - kilkanaście minut. Przez ten czas możemy wytworzyć milion fake newsów, czyli milion plików ze zmyślonymi tekstami (np. że dziś rano o godzinie 5:00 ze szpitala w Gnieźnie uciekło ośmiu pacjentów z SARS-CoV-2).
Tak więc detektor ustala wartość dla treści, którą analizuje. Dla zdania: Ziemia jest płaska na 99,99% będzie to fałsz. Dla zdania: Stolicą Polski w roku 2024 była Warszawa na 99,99% będzie to prawda. Generalnie detekcja fake newsów sprowadza się do rachunku takich zdań, relacji itp. Tego rodzaju operacje omawiał już Arystoteles - status prawdy lub fałszu przysługuje zdaniu, czyli frazie z czasownikiem w centrum. Novum Anno Domini 2025 polega na skali. Od weryfikacji jednego zdania z jednym czasownikiem do rozstrzygnięcia w zakresie dezinformacji w stosunku do całej bomby informacyjnej. A to już wyzwanie samo w sobie, dotykające prakseologii, w tym etyki (działaj maksymalnie sprawnie, lecz równie etycznie, czyli: „nie bądź świnią”), czy wręcz filozofii praktyczności.
Odpowiadając już wprost na pytanie: związek między detektorem a współczesną bombą informacyjną jest kluczowy – właśnie ze względu na skalę problemu potrzebujemy automatycznych narzędzi do weryfikacji. Skoro w czasie kilku minut może powstać milion fałszywych informacji, a człowiek w tym samym czasie jest w stanie zweryfikować zaledwie jedną czy dwie, to jedynym rozwiązaniem jest stworzenie detektorów działających automatycznie. Detektor, przypisując każdej informacji wartość prawdziwości od 0 do 1, może w czasie porównywalnym z czasem generowania fake newsów dokonać ich weryfikacji. To właśnie dlatego mówimy o "rasowym klasyfikatorze" – musi on działać błyskawicznie i z wysoką precyzją, by nadążyć za lawiną dezinformacji. Bez takich narzędzi zostalibyśmy całkowicie bezradni wobec skali współczesnej dezinformacji, gdyż tradycyjne metody weryfikacji są po prostu zbyt wolne w stosunku do tempa produkcji fałszywych treści.
Gdzie pojawia się problem z tworzeniem modeli i skąd biorą się zarzuty dotyczące jakości odpowiedzi modeli sztucznej inteligencji? Mam na myśli słynne halucynacje czyli generowanie niedokładnych lub błędnych informacji?
Jakość odpowiedzi tych modeli zależy głównie od trzech rzeczy: a) co to w ogóle jest za model – kto, kiedy i jak go opracowywał, jak bardzo się spieszył w tej pracy przed innymi, jakie dane wykorzystywał, b) prompt, czyli inicjalne pytanie, zagajenie, oraz c) temperatura modelu. Jeżeli chodzi o tzw. temperaturę, to sprawa sprowadza się do tego: na ile modelowi „pozwalamy”. Przyjmuje się suwak: 0 dla np. działań matematycznych czy programistycznych, 1 dla działań literacko-poetyckich, ponad 1: dla eksperymentów w rodzaju Ulissesa Joyce’a czy Snów Marii Dunin Irzykowskiego. Pomiędzy tymi wartościami jest cała szara strefa, po której można się poruszać (czyli ustawiać „po swojemu” i testować co wyjdzie). Jeżeli chodzi o dane, to w zasadzie prawie wszyscy gracze na rynku (czyli autorzy LLM-ów) dysponują tymi samymi danymi, są one dawno rozpoznane, każdy generalnie ma ich kopię (tu punktem wyjścia na pewno jest zjawisko o nazwie Common Crawl, czyli Internet „na dyskietce”). No i mamy nasz legendarny prompt, który już chyba każdy we własnym zakresie testował dla przeróżnych potrzeb. Tu sekret tkwi w trafnym dla danej potrzeby zadaniu pytania. Mój rekord to blisko 60 wersji jednego pytania o uzyskanie specyficznie zaprojektowanej struktury pliku.
Tak słaby był model, czy tak niedoskonale były formułowane prompty?
O, to bardzo dobre pytanie.
Kontynuujmy
Czy 60 wersji tego samego w założeniu promptu o to samo to dużo czy mało? Wszystko zależy od tego, w jakim zakresie jesteśmy zdeterminowani (zmotywawani, zdesperowani itp.). Ale, co ciekawe, modele tego typu, o których tu mówimy (rodzina od OpenAI, rodzina od Antropic, Snowflake, rodzina od Google, Bielik, PLLuM, Qra czy hit ostatnich tygodni: DeepSeek) nie są modelami deterministycznymi, a więc dla dokładnie tego samego pytania, modelu (jednego z około 180 bądź ich własnego klona), temperatury możemy otrzymać inne odpowiedzi. Jest to okoliczność i dobra, i zła: dobra, ponieważ na tym zjawisku polega cały pion pracy generatywnej, zła z kolei – gdyż zachodzi wysokie prawdopodobieństwo, że w podobnych warunkach badań nie otrzymamy tej samej odpowiedzi (i to jest problem). Osobną kwestią jest deficyt kompetencji twórców tych zasobów w zakresie tworzenia modeli. Należy mieć przeogromną kompetencję w zakresie bibliografii literackich, pisarstwa emigracyjnego, felietonistyki, reportażystyki, literatury faktu itp.; po prostu: należy wiedzieć, kto ma dobre pióro, kto rozporządza językiem w stopniu znacznie lepszym niż rówieśnicy i te teksty dobierać, np. z zakamarków Biblioteki Narodowej czy z półeczki bezpłatnej wymiany książki.
Jest pan profesor pracownikiem Wydziału Etnolingwistyki. Dlaczego projekt realizowany jest na WMI w Centrum Sztucznej Inteligencji?
Kiedy rozpoczynaliśmy pracę nad projektem, Wydział Etnolingwistyki jeszcze nie istniał. I teraz odpowiem dyplomatycznie: aby realizować projekt, musi się na to zgodzić dziekan. Dziekan Krzysztof Dyczkowski się zgodził.
Czy można już mówić o efektach?
Detektor, z przesadą, codziennie zmienia wersję. Pojawiają się w naszej pracowni ekskluzywne zbiory danych (np. wyniki wspominanych analiz). Ale w przypadku tego typu bardzo szeroko zakrojonych prac, w których brało lub bierze udział z różną intensywnością kilkanaście osób: informatycy, filolodzy, językoznawcy, etycy, filozofowie, folkloryści, medioznawcy, psychiatrzy itd. z kilku ośrodków w Polsce (3 wydziały UAM; Toruń, Bydgoszcz) najważniejsze są doświadczenia, kompetencje i publikacje. Na przykład takie za 200 punktów (Proceedings of the 14th Workshop on Computational Approaches to Subjectivity, Sentiment, & Social Media Analysis, 2024, Bangkok, Thailand, Association for Computational Linguistics), w których omawiamy nasze zbiory danych: POLygraph (zbieżność nazw nieprzypadkowa). Doświadczenia wykorzystujemy „na gorąco” w pracy dydaktycznej. Rośnie nowe pokolenie, mówiąc nowocześnie: fakenewsolożek i fakenewsologów, czy jeszcze: osób fakenewsologujących. Na biurkach leży rękopis Leksykonu wiedzy AI jako wynik sumy doświadczeń wypływających z pracy nad tym projektem. Uczestniczymy w seminariach popularnonaukowych, np. zwracam uwagę na najnowsze, z 15 stycznia 2025, organizowane przez Wydział Nauk Politycznych i Dziennikarstwa: Problem dezinformacji w mediach. Przyczyny. Skutki. Zwalczenie (wydarzenie jest organizowane we współpracy z Radiem Poznań oraz stowarzyszeniem DEMAGOG). Dzieje się.
Czy sztuczna inteligencja będzie drożeć czy tanieć?
SI można traktować obecnie jak commodity: prąd, wodę, gaz itp. Nie zauważam codziennej dostawy prądu, ale gdy jest awaria, sprawa po jakimś czasie robi się niedobra. Nie inaczej jest z SI. Doświadczenie zdobywałem dekadę temu jeszcze na modelach typu word2vec, potem już w nowej architekturze – w pracy z GPT-2, następnie w roku 2020 zapisałem się na listę oczekujących na GPT-3. Obecnie tego typu modeli jest, jak wspomnieliśmy, blisko 200 (mniej więcej tyle modeli jest ocenianych pod różnymi kryteriami w popularnych światowych leaderbordach), ale każdy z nas może mieć własne, bardziej intymne modele kategorii LLM. Jeżeli mowa o cenie per token w usługach komercyjnych API, to pytanie o cenę jest identyczne z pytaniem o cenę kostki masła. Albo zdrożeje, albo potanieje, albo utrzyma się na obecnym poziomie. W tej chwili wojna cenowa wskazuje na kierunek malenia kosztów. Wierni fani (albo: hard-userzy) AI trafiają także czasem na promocje (można kupić dużo tokenów tanio, prawie darmo! Może warto teraz chomikować tokeny, niczym bitcoin w 2010 roku).
Fakenewsy zagrażają nam codziennie. Na co zwracać uwagę?
Po udostępnieniu w latach 2020-2022 modeli generatywnych na szeroką skalę liczą się już tylko bezpośrednie rozmowy, wzajemna ufność, praca nad ludzkimi relacjami, mądre, korzystne spędzanie. Warto czytać jak najwięcej tego, co zostało napisane do tego czasu - coś w rodzaju korepetycji udzielonej przez Ryszarda Koziołka: „Czytać, dużo czytać”. No i kluczowa jest życzliwość komunikacyjna, która jest czymś innym niż klasycznie rozumiana grzeczność, tak charakterystyczna dla języków orientalnych, np. japońskiego czy koreańskiego. W sprawie rozumnego i przyjemno-pożytecznego spędzania czasu wypowiedział się już Platon w Uczcie/Biesiadzie. Życzliwość komunikacyjna natomiast polegałaby na tym, że ten, kto mówi, robi wszystko, naprawdę wszystko, aby ten drugi zrozumiał jego słowa dokładnie tak, jak jest zamierzone – i vice versa: słuchający nie udaje, że nie rozumie, co się do niego mówi.
A zatem warto dużo czytać i dużo rozmawiać?
Tak, a pomiędzy uczciwą pracą naukową – ciut jeszcze plotkować.
Zobacz też: Zakład Badań Diachronicznych. Holistycznie o przemocy