Według najnowszych badań system oparty na algorytmach, który rozpoznaje znamienne wskazówki językowe w fałszywych wiadomościach, może zapewnić agregatorowi wiadomości i serwisom społecznościowym, takim jak Google News, nową broń w walce z dezinformacją.
Badacze, którzy opracowali system, wykazali, że jest on porównywalny z ludźmi, a czasem lepszy od nich, przy prawidłowym identyfikowaniu fałszywych wiadomości.
W ostatnich badaniach system z powodzeniem wykrył podróbki do 76 procent czasu, w porównaniu z ludzkim odsetkiem sukcesu 70 procent. Ponadto ich podejście do analizy językowej można wykorzystać do identyfikacji fałszywych artykułów, które są zbyt nowe, aby można je było obalić, porównując ich fakty z innymi historiami.
Rada Mihalcea, profesor informatyki i inżynierii na University of Michigan, który stoi za projektem, twierdzi, że zautomatyzowane rozwiązanie może być ważnym narzędziem dla stron, które walczą z atakiem fałszywych wiadomości, które ludzie często tworzą, by generować kliknięcia lub manipulować opinią publiczną.
Łapanie fałszywych historii, zanim przyniosą one rzeczywiste konsekwencje, może być trudne, ponieważ serwisy agregujące i społecznościowe w dzisiejszych czasach polegają w dużej mierze na ludzkich redaktorach, którzy często nie nadążają za napływem wiadomości. Ponadto obecne techniki obalania często zależą od zewnętrznej weryfikacji faktów, co może być trudne w przypadku najnowszych historii. Często, zanim historia okaże się fałszywa, szkody już zostały wyrządzone.
Analiza językowa przyjmuje inne podejście, analizując kwantyfikowalne atrybuty, takie jak struktura gramatyczna, wybór słów, interpunkcja i złożoność. Działa szybciej niż ludzie i można go używać z różnymi rodzajami wiadomości.
„Możesz sobie wyobrazić dowolną liczbę zastosowań tego w przedniej lub tylnej części strony z wiadomościami lub mediami społecznościowymi”, mówi Mihalcea. „Może zapewnić użytkownikom oszacowanie wiarygodności poszczególnych historii lub całej witryny z wiadomościami. Lub może to być pierwsza linia obrony na zapleczu strony z wiadomościami, oznaczająca podejrzane historie do dalszej analizy. Procentowy wskaźnik sukcesu 76 pozostawia dość duży margines błędu, ale nadal może zapewnić cenny wgląd, gdy jest stosowany obok ludzi. ”
Według Mihalcei algorytmy językowe analizujące mowę pisemną są dość powszechne. Wyzwanie polegające na zbudowaniu fałszywego detektora wiadomości nie polega na zbudowaniu samego algorytmu, ale na znalezieniu odpowiednich danych, z którymi można wyszkolić ten algorytm.
Fałszywe wiadomości pojawiają się i znikają szybko, co utrudnia ich zebranie. Występuje również w wielu gatunkach, co dodatkowo komplikuje proces gromadzenia. Na przykład wiadomości satyryczne są łatwe do zebrania, ale użycie ironii i absurdu sprawia, że jest mniej przydatne w szkoleniu algorytmu wykrywania fałszywych wiadomości, które mają wprowadzić w błąd.
Ostatecznie zespół Mihalcei stworzył własne dane, crowdsourcing zespołu internetowego, który przekształcił zweryfikowane autentyczne historie informacyjne w podróbki. Tak powstaje większość fałszywych wiadomości od osób, które szybko je piszą w zamian za nagrodę pieniężną, mówi Mihalcea.
Naukowcy rekrutowali uczestników przy pomocy Amazon Mechanical Turk i płacili im za przekształcanie krótkich, aktualnych wiadomości w podobne, ale fałszywe wiadomości, naśladując dziennikarski styl artykułów. Pod koniec tego procesu zespół badawczy miał zbiór danych prawdziwych i fałszywych wiadomości 500.
Następnie nakarmili te oznaczone historią pary algorytmowi, który przeprowadził analizę językową, ucząc się odróżniać prawdziwe i fałszywe wiadomości. W końcu zespół przekształcił algorytmy w zbiór danych zawierających prawdziwe i fałszywe wiadomości pobrane bezpośrednio z sieci, uzyskując procentowy odsetek sukcesu 76.
Szczegóły nowego systemu i zestaw danych, które zespół użył do jego zbudowania, są ogólnodostępne, a Mihalcea mówi, że serwisy informacyjne lub inne podmioty mogłyby je wykorzystać do budowy własnych systemów wykrywania fałszywych wiadomości. Mówi, że włączenie metadanych, takich jak linki i komentarze związane z danym newsem online, może jeszcze bardziej ulepszyć przyszłe systemy.
Naukowcy szczegółowo opisują system w artykule, który zaprezentują na 27th International Conference on Computational Linguistics w Santa Fe w Nowym Meksyku.