Jak identyfikować i badać fałszywe podróbki dźwięku AI, główne zagrożenie związane z wyborami w 2024 r. / Rowan Philp

0
171

Zdjęcie: Shutterstock

W październiku 2023 r. syntezowane przez sztuczną inteligencję podszywanie się pod głos lidera opozycji pomogło skierować wybory na Słowacji na kandydata prorosyjskiego. Kolejny fałszywy dźwięk AI został nałożony na prawdziwy klip wideo przedstawiający kandydata w Pakistanie, rzekomo wzywającego wyborców do bojkotu wyborów powszechnych w lutym 2024 r. Przed styczniowymi wyborami w Bangladeszu kilka podróbek stworzonych przy użyciu niedrogich, komercyjnych generatorów sztucznej inteligencji zyskało popularność wśród wyborców dzięki oczernianiu rywalizujących kandydatów na urzędującego premiera. Z kolei w USA klip audio udający głos prezydenta Joe Bidena nawoływał wyborców, aby nie głosowali w prawyborach w jednym z kluczowych stanów.
„Podróbki dźwięku AI mogą stanowić poważne zagrożenie… Są łatwiejsze i tańsze w tworzeniu niż filmy typu deepfake, a ponadto istnieje mniej wskazówek kontekstowych, które można wykryć gołym okiem”. — Olga Yurkova, trenerka dziennikarstwa i współzałożycielka StopFake.org
Eksperci są zgodni co do tego, że historyczny rok wyborczy 2024 będzie rokiem deepfakes opartych na sztucznej inteligencji, co będzie miało potencjalnie katastrofalne skutki dla zagrożonych demokracji. Niedawne badania sugerują, że ogólnie rzecz biorąc, około połowa społeczeństwa nie potrafi odróżnić obrazów rzeczywistych od obrazów wygenerowanych przez sztuczną inteligencję oraz że wyborcy nie są w stanie wiarygodnie wykryć fałszywych wypowiedzi, a od tego czasu technologia uległa jedynie poprawie. Deepfake obejmują subtelne zmiany obrazu przy użyciu mediów syntetycznych i klonowania głosu nagrań cyfrowych, a także wynajmowane cyfrowe awatary i wyrafinowane „zamiany twarzy” wykorzystujące niestandardowe narzędzia. (Zdecydowana większość ruchu opartego na deepfake’ach w Internecie jest napędzana przez mizoginię i osobistą mściwość: mającą na celu upokorzenie poszczególnych kobiet fałszywymi obrazami o charakterze seksualnym – ale taktyka ta jest również coraz częściej stosowana do ataków na dziennikarki).

Dlaczego podróbki AI Audio mogą stanowić główne zagrożenie w tym cyklu wyborczym

Badacze manipulacji mediami powiedzieli GIJN, że fałszywe symulacje audio generowane przez sztuczną inteligencję – w których prawdziwy głos jest klonowany przez narzędzie do uczenia maszynowego w celu przekazania fałszywej wiadomości – mogą okazać się jeszcze większym zagrożeniem dla wyborów w 2024 i 2025 r. niż sfabrykowane filmy wideo. Jednym z powodów jest to, że podobnie jak tzw. tanie podróbki, podróbki audio są łatwiejsze i tańsze w produkcji. (Tanie podróbki były już szeroko stosowane w dezinformacji wyborczej i obejmują nagrania wideo rzekomo z jednego miejsca, które w rzeczywistości pochodziły z innego, i w których krótkie klipy audio są prymitywnie łączone w filmy lub rażąco edytowane napisy). Kolejną zaletą, jaką oferują one złym aktorom, jest to, że można ich używać w automatycznych automatycznych połączeniach telefonicznych, aby kierować dezinformację do (zwłaszcza) starszych, bardzo aktywnych wyborców. Śledzenie pochodzenia automatycznych połączeń pozostaje globalnym martwym punktem dla reporterów śledczych.
„Podróbki dźwięku AI mogą stanowić poważne zagrożenie” – podkreśla Olga Yurkova, trenerka dziennikarstwa i współzałożycielka StopFake.org, niezależnej ukraińskiej organizacji sprawdzającej fakty. „Są łatwiejsze i tańsze w tworzeniu niż filmy typu deepfake, a ponadto zawiera mniej wskazówek kontekstowych, które można wykryć gołym okiem. Mają też większy potencjał do rozpowszechniania się, na przykład w czatach WhatsApp”.
Dodaje: „Analiza jest bardziej złożona, a narzędzia do generowania głosu są bardziej zaawansowane niż narzędzia do generowania wideo. Nawet w przypadku próbek głosu i umiejętności analizy widmowej wymaga to czasu i nie ma gwarancji, że wynik będzie dokładny. Ponadto istnieje wiele możliwości fałszowania dźwięku bez uciekania się do technologii deepfake.”
Często dziennikarze od razu rozpoznają w wielu klipach audio oczywistą manipulację, opierając się na znajomości kandydata, niskiej jakości nagrania, kontekście lub po prostu zdrowym rozsądku.
Trenerka dziennikarstwa opartego na danych Samantha Sunne twierdzi, że redakcje informacyjne wymagają ciągłej czujności podczas wyborów – zarówno ze względu na nagłe zagrożenie ze strony stosunkowo słabo zbadanych podróbek audio AI, jak i dlatego, że „technologia deepfake szybko się zmienia, podobnie jak narzędzia do wykrywania i monitorowania”.
Organizacje weryfikujące fakty i niektóre prodemokratyczne organizacje pozarządowe zmobilizowały się, aby pomóc grupom obywatelskim i redakcjom w analizowaniu podejrzanych wirusowych treści wyborczych. Na przykład organizacja non-profit WITNESS na rzecz wzmacniania praw człowieka przeprowadziła w ubiegłym roku pilotażowy projekt Deepfakes Rapid Response , wykorzystując sieć około 40 ekspertów badawczych i komercyjnych do analizy dziesiątek podejrzanych klipów. W wywiadzie dla GIJN kierownik projektu Rapid Response, Shirin Anlen, stwierdziła, że ​​podróbki dźwięku AI wydają się najłatwiejsze do wykonania i najtrudniejsze do wykrycia, a także że wydają się być stworzone z myślą o oszustwach wyborczych.
„Jako społeczność odkryliśmy, że nie jesteśmy tak przygotowani na dźwięk, jak na wideo — tę lukę, którą obecnie widzimy” – mówi Anlen, dodając, że badacze byli „zaskoczeni” wysokim odsetkiem wpływowych podróbek dźwięku AI w 2023 r. Z sześciu niezwykle istotnych spraw dotyczących wyborów lub praw człowieka, które Siły Reagowania zdecydowały się dogłębnie zbadać, cztery dotyczyły podróbek audio.
„Wydaje się, że dźwięk jest częściej wykorzystywany podczas wyborów i w obszarach kryzysowych — łatwiej jest go tworzyć i rozpowszechniać za pośrednictwem różnych platform lub automatycznych połączeń telefonicznych” – wyjaśnia Anlen. „Jest to również bardzo spersonalizowane — często naprawdę trzeba poznać osobę, sposób, w jaki mówi, aby wykryć manipulację. Następnie mamy podwójny dźwięk i szum tła, muzykę lub przesłuchy — wszystko to sprawia, że ​​wykrywanie jest bardziej złożone, w przeciwieństwie do wideo, gdzie można zobaczyć manipulację, być może z usterką na twarzy”.

Głęboko fałszywy kolaż wideo przedstawiający twarze różnych kobiet

Podczas gdy w przypadku wielu deepfake’ów wideo nadal występują usterki i inne wizualne oznaki manipulacji obrazem, deepfake’i audio są często znacznie trudniejsze do wykrycia. Zdjęcie: Shutterstock
Anlen ostrzega jednak, że „wykrywanie wideo również pozostaje w tyle za technikami generatywnymi” i że wydanie nowego narzędzia OpenAI do przetwarzania tekstu na wideo, Sora, ilustruje trend w kierunku niemal płynnych symulacji. Dodaje, że brak umiejętności korzystania z mediów wśród starszych wyborców jeszcze bardziej zwiększa zagrożenie związane z podróbkami dźwięku i automatycznymi połączeniami telefonicznymi opartymi na sztucznej inteligencji – „ponieważ osoby nieprzyzwyczajone do, powiedzmy, X [Twittera] czy TikToka, mogą mieć mniejszą zdolność do filtrowania podróbek audio. ”

Gdzie i w jaki sposób stosuje się fałszywe fałszywe mowy

„ Financial Times” doniósł, że narzędzia do klonowania głosu były również wykorzystywane podczas wyborów w takich krajach jak Indie, Wielka Brytania, Nigeria, Sudan i Etiopia. Dochodzenie FT wykazało, że podróbki dźwięku AI nagle stały się popularne wśród propagandystów ze względu na nową, łatwą dostępność niedrogich i wydajnych narzędzi AI „od start-upów takich jak ElevenLabs, Resemble AI, Respeecher i Replica Studios”. Należy pamiętać, że kilka narzędzi AI przetwarzających tekst na mowę zaprojektowano z myślą o żartach, reklamach komercyjnych, a nawet zabawnych prezentach, jednak eksperci ostrzegają, że można je ponownie wykorzystać do celów propagandy politycznej, a nawet podżegania. Z raportu wynika, że ​​z podstawowych narzędzi można korzystać już od 1 dolara miesięcznie, a zaawansowanych za 330 dolarów miesięcznie, co stanowi niewielki ułamek budżetów kampanii politycznych.
Do tej pory najbardziej przekonujące podróbki dźwiękowe powstały z głosów, które wypowiedziały najwięcej słów w Internecie, co oczywiście często dotyczy znanych osób publicznych, w tym polityków. Jeden z najbardziej trafnych przykładów dotyczył brytyjskiego aktora i intelektualisty Stephena Fry’a, gdzie program sztucznej inteligencji wykorzystał obszerną internetową narrację Fry’a na temat siedmiu powieści o Harrym Potterze, aby stworzyć fałszywą narrację o nazistowskim oporze, która zawierała także niemieckie i holenderskie imiona i słowa – doskonale modulowane z akcentem i intonacją Fry’a – czego sam aktor nigdy nie powiedział. Program AI w niesamowity sposób przewidział, jak Fry wypowie te obce słowa. (Zobacz klip wyjaśniający Fry’a od 12:30 do 15:30 minuty w poniższym filmie, aby przekonać się o alarmującym wyrafinowaniu zaawansowanych deepfake’ów mowy.)
Jednak Hany Farid, profesor informatyki i ekspert w dziedzinie kryminalistyki mediów na Uniwersytecie Kalifornijskim w Berkeley, powiedział magazynowi Scientific American, że obecnie minuta nagrania czyjegoś głosu może wystarczyć, aby stworzyć nowy, przekonujący deepfake dźwięku przy użyciu generatywnych narzędzi AI, które kosztuje zaledwie 5 dolarów miesięcznie. Stwarza to nowe zagrożenie podszywaniem się pod urzędników średniego szczebla związanych z wyborami – biurokratów, których wystąpienia publiczne zwykle ograniczają się do krótkich ogłoszeń. Farid wyjaśnił dwa główne sposoby tworzenia podróbek dźwięku: albo zamiana tekstu na mowę — gdy oszust przesyła prawdziwy dźwięk, a następnie wpisuje to, co chciałby, aby głos „powiedział” — albo zamiana mowy na mowę, w przypadku której oszust nagrywa wypowiedź własnym głosem, a następnie narzędzie ją konwertuje. Wysiłek włożony w stworzenie przekonującej fałszywki nawet osoby niepublicznej określił jako „błahy”.
Nowy hybrydowy fałszywy model jest dostarczany przez branżę cyfrowych awatarów, gdzie niektóre start-upy wykorzystujące sztuczną inteligencję oferują wybór cyfrowo sfabrykowanych aktorów, których można zmusić do „mówienia” dłuższych wiadomości, które lepiej synchronizują się z ich ustami niż fałszywe wiadomości nałożone na prawdziwych ludzi w klipach wideo . Według „The New York Times” badacze z firmy Graphika zajmującej się analizą mediów społecznościowych powiązali transmisje informacyjne oparte na awatarach z usługami oferowanymi przez „firmę zajmującą się sztuczną inteligencją mającą siedzibę nad sklepem odzieżowym w londyńskim Oxford Circus”, która oferuje dziesiątki cyfrowych znaków i języków do wyboru .

Wskazówki dotyczące reagowania na fałszywe zagrożenia audio  

Chociaż w przypadku zaawansowanych deepfakes w wypowiedziach, których nawet znajomi mówiącego nie potrafią rozróżnić, wymagana jest analiza ekspercka i nowe narzędzia do wykrywania, często dziennikarze od razu rozpoznają oczywistą manipulację w wielu klipach audio na podstawie swojej wiedzy o kandydacie, niskiej jakości nagrania, kontekście lub po prostu zdrowym rozsądkiem. Eksperci ostrzegają jednak, że podejrzenia na poziomie instynktu to tylko niewielka część procesu wykrywania. Szybka reakcja oparta na dowodach, uwypuklenie prawdziwego dźwięku w „kanapce z prawdą” i odnalezienie źródła oszustwa są równie ważne.
Oto szczegółowy proces analizy potencjalnych deepfake’ów audio.
  • Najpierw musisz oznaczyć podejrzane klipy i zrobić to odpowiednio wcześnie. Redaktorzy podają, że opublikowanie wskazówek dla odbiorców w przypadku podejrzanych dźwięków i połączeń automatycznych – na przykład przy użyciu dedykowanego numeru WhatsApp – zapewnia skuteczny system wczesnego ostrzegania ze strony samych wyborców. Klasyczny brazylijski projekt Comprova – śledztwo w sprawie dezinformacji wyborczej, w którym uczestniczyły 24 organizacje medialne – również pokazał, że konkurencyjne redakcje publikują ten sam numer WhatsApp i udostępniają wyniki, aby w pełni wykorzystać siłę crowdsourcingu i siłę mózgów wyborców. Niektóre usługi, np. Reality Defender, wysyłają natychmiastowe powiadomienia o fałszywych treściach na Twój adres e-mail . Współpraca może również pomóc w identyfikacji skoordynowanych kampanii wykorzystujących różne podróbki audio. Pomocne są również tradycyjne monitorowanie mediów społecznościowych i otwarte kanały komunikacji z organizacjami weryfikującymi fakty i grupami dyskusyjnymi dziennikarzy politycznych.
  • Redakcje potrzebują drugiego systemu wczesnego ostrzegania przed fałszywymi nagraniami dźwiękowymi, które stają się wirusowe, aby wiedzieć, którym z nich nadać priorytet, wyraźnie je zdemaskować i prześledzić wstecz. Nagłe pojawienie się klipu audio na wielu platformach mediów społecznościowych jest wczesnym sygnałem, podczas gdy narzędzia analityczne, takie jak BuzzSumo , mogą dać wyobrażenie o szybkości udostępniania klipu, a wzmocnienie przez źródła aktywistów w stronniczych mediach może być albo odbiciem, albo przyczyną szkodliwej wirusowości.
  • Pamiętaj, że podejrzane klipy z błędami i niespójnością głosu mogą nadal być prawdziwe. Jak zauważają eksperci w artykule Wired , „nienaturalnie brzmiący głos może być wynikiem czytania scenariusza pod ogromną presją” – jest to zjawisko znane z „prawdziwych” oświadczeń zakładników. Tymczasem podejrzane usterki w wideo o niskiej jakości mogą „równie dobrze być artefaktami powstałymi w wyniku kompresji, jak dowodem głębokiego oszustwa”.

    Podręcznik weryfikacji, Craig Silverman

    Podręcznik weryfikacji Craiga Silvermana pozostaje kluczowym źródłem informacji umożliwiającym śledzenie twórców deepfake. Zdjęcie: Zrzut ekranu, podręcznik weryfikacji

  • Dziennikarze i weryfikatorzy faktów rzeczywiście potrzebują danych opartych na dowodach, aby skutecznie zwalczać szeroko rozpowszechnione podróbki dźwięku AI, nawet jeśli wydają się oczywiste – i w tym przypadku najważniejsze są źródła sprawdzające fakty, eksperci od języków ojczystych, zespoły szybkiego reagowania na deepfake i narzędzia do wykrywania (więcej o nich poniżej). Technolodzy mediów, tacy jak Shirin Anlen, również podkreślają, że dziennikarze powinni zaczynać od tradycyjnych metod weryfikacji – takich jak wyszukiwanie obrazów wstecznych, wywiady ze źródłami i liczne narzędzia opisane w „ Podręczniku weryfikacji” Craiga Silvermana – aby wzmocnić swoją reakcję.
  • Ponieważ redakcje nie mogą „udowodnić zaprzeczenia” – że kandydat nigdy nie powiedział sfałszowanego oświadczenia – reporterzy zmuszeni są skupić się na pochodzeniu samego klipu oraz na jego stworzeniu i rozpowszechnieniu. Eksperci twierdzą jednak, że reporterzy mogą i powinni zidentyfikować i wyróżnić zweryfikowany klip przedstawiający wypowiedzi kandydata na tę samą kwestię omawianą w fałszywce – i że ta oparta na faktach treść powinna dominować na górze artykułu, a nawet nagłówku, jeśli to możliwe .
  • Co najważniejsze: eksperci podkreślają, że zaufanie mediów jest najważniejszym elementem przeciwdziałania deepfake’om audio AI – aby serwisy informacyjne były tak rygorystyczne i oparte na dowodach w swoich wcześniejszych relacjach z kampanii i dochodzeniach dotyczących wyborów, aby uwierzono w ich dochodzenia w sprawie deepfake’ów prowadzone w przededniu wyborów .
  • Znajdź wpływ, prosząc o komentarz i zasady organów regulacyjnych. Trudność w wyśledzeniu poszczególnych fałszywych połączeń – a także automatycznych połączeń z fałszywymi identyfikatorami rozmówców – do oszustów oznacza, że ​​historie śledcze mogą mieć większy wpływ na wywieranie nacisku na ustawodawców i rządowe organy regulacyjne, aby ograniczyły lub zakazały rozpowszechniania spamu audio generowanego przez sztuczną inteligencję. W lutym amerykańska Federalna Komisja Łączności zakazała stosowania narzędzi sztucznej inteligencji w automatycznych połączeniach telefonicznych, co jest bezpośrednią odpowiedzią na stwarzane przez nie zagrożenie dezinformacją wyborczą.

Dodatkowe zagrożenie stwarzane przez Deepfakes w przeddzień wyborów

Wzrost liczby deepfake’ów stwarza także szaleńcze zagrożenie dla samych artykułów śledczych. Politycy lub działacze partyzanccy, jak obecnie ujawniono, wypowiadający się oburzająco lub naruszający prawa ludzi w prawdziwych klipach wideo lub audio uzyskanych przez dziennikarzy, mogą równie dobrze twierdzić, że te uzasadnione dowody są po prostu wynikiem zaawansowanego głębokiego oszustwa opartego na sztucznej inteligencji; wygodne zaprzeczenia, które mogą być trudne do obalenia. Zdarzyło się to już politykom w takich krajach jak Indie i Etiopia, a ten nowy obowiązek nałożony na dziennikarzy, polegający na udowodnieniu, że prawidłowo pochodzące i zweryfikowane nagranie jest rzeczywiście prawdziwe, budzi głębokie zaniepokojenie ekspertów takich jak Sam Gregory, dyrektor wykonawczy WITNESS. Problem ten nazywany jest „ dywidendą kłamcy”, a jego ostatecznym rozwiązaniem jest zaufanie mediów: redakcje bezlitośnie dbają o to, aby wszystkie inne ich historie i źródła na temat wyborów również były rzetelne. (Zobacz, jak Gregory omawia zagrożenie związane z deepfakes w swoim przemówieniu TED poniżej.)
Sprawa Słowacji jest szczególnie niepokojąca dla reporterów organów nadzoru z dwóch powodów. Po pierwsze dlatego, że w fałszywym dwuminutowym klipie audio, który skupiał się na fałszowaniu wyborów, sfabrykowano także głos dziennikarki śledczej Moniki Tódovej – rzekomo rozmawiającej z przywódcą opozycji. W artykule śledczym na temat incydentu opublikowanym przez The Dial Tódová ujawniła, że ​​początkowo odrzuciła wirusowy klip jako niewiarygodny. „[Ale] znajomi pisali do mnie, że ich współpracownicy z wyższym wykształceniem słuchali tego i uwierzyli w to” – wspomina. „I udostępnili to w mediach społecznościowych. Znalazłem się w zupełnie nowej rzeczywistości.”
Po drugie: czas pojawienia się słowackiego deepfake’a audio nosił znamiona zagranicznych agentów państwowych. Dochodzenie Dial wykazało, że klip został wyemitowany tuż przed przewidzianym w Słowacji dwudniowym okresem „ciszy” dotyczącym wszystkich kampanii poprzedzających dzień wyborów. Taktyka ta zarówno maksymalizowała wpływ, jak i dawała dziennikarzom niewiele możliwości jej odparcia, ponieważ krajowe media miały prawnie ograniczone możliwości demaskowania dezinformacji. (Przypadek ten dokładnie potwierdza przewidywania Craiga Silvermana z ProPublica, które przedstawił GIJN w 2022 r., że „wybory są prawdopodobnie najbardziej podatne na fałszywe fałszerstwa w ciągu 48 godzin poprzedzających dni wyborów, ponieważ kampanie i dziennikarze mieliby mało czasu na weryfikację lub obalenie.”

Dochodzenie NBC News Biden Audio Deepfake Robocall

Zdjęcie: Zrzut ekranu, Wiadomości NBC

Godna uwagi jest także fałszywa automatyczna rozmowa Bidena, która rozeszła się tuż przed wyborami do prawyborów w New Hampshire. NBC News ostatecznie wyśledziło źródło tego fałszywego dźwięku , magika, który twierdził, że płacił mu konsultant z konkurencyjnej kampanii prezydenckiej Demokratów. Według raportu mężczyzna przyznał, że „stworzenie fałszywego dźwięku zajęło mniej niż 20 minut i kosztowało zaledwie 1 dolara”. Opowiedział o swojej roli w kampanii dezinformacyjnej, gdy wyraził ubolewanie nad swoim zaangażowaniem. „To tak przerażające, że można to zrobić tak łatwo” – powiedział NBC News. „Ludzie nie są na to gotowi”.

Wskazówki i narzędzia dotyczące wykrywania zaawansowanych deepfake’ów

Ukraińska witryna StopFake.org niedawno zdemaskowała i namierzyła fałszywy film, który miał przedstawiać najwyższego rangą generała potępiającego prezydenta Wołodymyra Zełenskiego. Korzystając z narzędzia Deepware Scanner i analizy spójności, zespół odkrył, że oszust wykorzystał technikę uczenia maszynowego zwaną GAN (generatywną sieć kontradyktoryjną) do nałożenia fałszywych obrazów i dźwięku na prawdziwy film ukraińskiego generała nagrany rok wcześniej. Inni analitycy odkryli, że deepfake został po raz pierwszy opublikowany przez kanał Telegramu, który twierdzi, że udostępnia „treści humorystyczne”.
Yurkova z StopFake twierdzi, że do badania podejrzanych treści multimedialnych używa narzędzi do wykrywania w połączeniu ze zwykłymi narzędziami do tworzenia odwróconego obrazu, ale ostrzega, że ​​„niestety nie zawsze to działa”.
„Mamy niewielkie doświadczenie z czystymi podróbkami audio” – wyjaśnia. „Często rozpoznajemy takie podróbki poprzez zwykłe odsłuchiwanie, ale sprawdza się to głównie w przypadku podróbek o niskiej jakości.”
Reporterzy powinni również sprawdzić, czy w podpisach i towarzyszącym im tekście nie są ukryte hasła polityczne lub narracje kampanii, które mogłyby wskazywać na manipulację.
Należy zauważyć, że wykrywanie deepfake’ów to nowa technologia, a zarówno narzędzia typu open source, jak i narzędzia komercyjne są często niedokładne lub ograniczone do wielkości liter, a dziennikarze muszą ostrzegać odbiorców o swoich ograniczeniach. Anlen z WITNESS ostrzega, że ​​„z naszego doświadczenia wynika, że ​​nie znaleźliśmy jeszcze [narzędzia], które nie przeszłoby naszych testów i zapewniło przejrzyste i dostępne wyniki”. Niemniej jednak mogą być pomocne jako wskazówki lub dowody potwierdzające.
Oto więcej wskazówek technicznych dotyczących postępowania z podejrzanym dźwiękiem.
  • Sprawdź dźwięk z rodzimymi użytkownikami języka. Yurkova przytoczyła tanią podróbkę audio, która w prymitywny sposób podszywała się pod głos prezydenta USA Joe Bidena w 2023 roku, rzekomo przyznając się do niezwyciężoności Władimira Putina i szeroko wzmacniana przez rosyjskie media państwowe i niektóre kanały Telegramu. StopFake po prostu udostępnił nagranie kilku rodzimym użytkownikom amerykańskiego języka angielskiego, którzy natychmiast zauważyli, że niektóre słowa zostały wyraźnie sfałszowane — zwłaszcza użycie miękkiego „i” w słowie „patriota”, które Amerykanie wymawiają prawie jako trzy pełne sylaby .
  • Wypróbuj portale wykrywające specyficzne dla narzędzi. Yurkova twierdzi, że dobre narzędzia do wykrywania deepfake’ów audio obejmują klasyfikator mowy AI firmy ElevenLabs, ale ostrzega, że ​​może on wykryć jedynie klipy utworzone za pomocą narzędzi ElevenLabs. „Aby sprawdzić dźwięk, należy przesłać plik audio do serwisu” – dodaje. Uwaga: badacze wykorzystali systemy wykrywania ElevenLabs w przypadku fałszywego dźwięku Bidena i odkryli, że z bardzo dużym prawdopodobieństwem został on utworzony przy użyciu własnych narzędzi sztucznej inteligencji tej firmy. Twórca fałszywego dźwięku potwierdził to później w NBC News, pokazując, że śledzenie wsteczne źródła deepfake może być całkiem dokładne.
  • Opracuj eksperckie źródła branżowe. Reporterzy mogą skorzystać z pomocy ekspertów z organizacji kryminalistycznych, takich jak Reality Defender, Loccus.AI, Respeecher, DeepMedia oraz uniwersyteckich cyfrowych laboratoriów kryminalistycznych i wydziałów technologii informatycznych. Utwórz bazę danych ekspertów cytowanych już w artykułach audio AI w innych mediach i sprawdź, czy pomogą oni w pracach kryminalistycznych nad Twoim podejrzanym klipem.
  • Wypróbuj narzędzie PlayHT Classifier, aby zgłosić ogólne oznaki manipulacji AI w dźwięku. „Ma to na celu sprawdzenie, czy ścieżka dźwiękowa została wykonana przy pomocy sztucznej inteligencji, czy też jest to nagranie oryginalne; ponownie musisz przesłać plik audio” – powiedziała Yurkova, odnosząc się do narzędzia opracowanego przez PlayHT, start-up zajmujący się przetwarzaniem tekstu na mowę. Sugeruje również narzędzie AI or Not jako całkowicie bezpłatną opcję wyszukiwania fałszywych obrazów w klipach. Samantha Sunne sugeruje, aby reporterzy sprawdzili alternatywne narzędzia, takie jak sensity.ai.
  • Rozważ płatne detektory, które działają z wieloma językami. Oprócz automatycznej weryfikacji dźwięku AI Voice Detector oferuje dodatkowe funkcje, takie jak filtry do usuwania muzyki w tle i możliwość wyszukiwania bez pozostawiania nagrania. „Program nie przechowuje osobistych plików audio i oferuje szeroki wybór języków” – wyjaśnia Yurkova. Zauważa jednak również, że po utworzeniu konta wypycha subskrypcję za prawie 20 dolarów miesięcznie i nie oferuje okresu próbnego. Yurkova sugeruje także wykrywacz dźwięku syntetycznego w dowolnym języku DuckDuckGoose — z deklarowaną dokładnością na poziomie 93% — oraz płatną funkcję sprawdzania dźwięku w czasie rzeczywistym Resemble Detect, która wymaga rejestracji.
  • Monitoruj pod kątem drażniących lub nieprawdopodobnych wyborów słów. W październiku ubiegłego roku rząd Izraela opublikował nagranie dźwiękowe, które rzekomo przedstawia rozmowy radiowe Hamasu po eksplozji szpitala al-Ahli w Gazie, co urzędnicy uznali za dowód winy Hamasu. Jednak arabscy ​​dziennikarze podają w wątpliwość autentyczność dialektu, składni i akcentu głosów, podczas gdy inny raport Channel 4 również odrzucił tę informację jako prawdopodobny fałszywy dialog połączony z dwoma oddzielnymi nagraniami.

    Analiza kontekstu kanału 4 IDF opublikowała nagrania dźwiękowe rzekomych agentów Hamasu

    Analiza Channel 4 News rzekomej rozmowy między agentami Hamasu, w której przyznano, że Islamski Dżihad był odpowiedzialny za zbombardowanie szpitala w Gazie – opublikowana przez Izraelskie Siły Obronne – wykazała liczne niespójności w kontekście, dialekcie i tonie, co doprowadziło stację do wniosku, że nagranie nie było prawowity. Zdjęcie: Zrzut ekranu, wiadomości z kanału 4
  • Sprawdź metadane i historię domen witryn pochodzenia . „Reporterzy mogą używać narzędzi internetowych, takich jak WHOIS, do śledzenia podróbek na oryginalnym koncie w mediach społecznościowych lub na plakacie” – wyjaśnia Yurkova. Narzędzia takie jak RiskIQ i Crowdtangle mogą również pomóc w śledzeniu pochodzenia klipów. „Jednak wyśledzenie ich do pierwotnych oszustów lub fundatorów może być trudniejsze i może wymagać pomocy organów ścigania lub ekspertów ds. cyberbezpieczeństwa” – ostrzega.
  • Szukaj rzeczy, które wydają się „wyłączone” w filmach, korzystając z analizy klatka po klatce. „Niespójności wizualne mogą stać się widoczne podczas oglądania klatka po klatce” – mówi Yurkova. „Zwracamy uwagę na to, czy wyraz twarzy odpowiada oczekiwanym emocjom danej osoby podczas wypowiadanych przez nią słów. Niedopasowanie sygnałów werbalnych i niewerbalnych może oznaczać, że słowa i mimika mają różne pochodzenie.
  • Przeanalizuj towarzyszący tekst i podpisy pod kątem charakterystycznych sformułowań i literówek. Oprócz wyraźnych kłamstw, wulgaryzmów i nawoływania do przemocy reporterzy powinni również sprawdzić, czy w podpisach i towarzyszącym im tekście nie są ukryte hasła polityczne lub narracje kampanii, które mogłyby wskazywać na manipulację.
W pilnych przypadkach redakcje mogą zwrócić się do organizacji pozarządowych zajmujących się technologią zajmującą się prawami człowieka o pomoc w analizie podejrzanych treści wyborczych. Na przykład za pomocą tego formularza redakcje dysponujące niedostatecznymi zasobami mogą ubiegać się o intensywną analizę „wymownych” klipów przez ekspertów z projektu Deepfakes Rapid Response. (Pamiętaj, że ten projekt szybkiego reagowania ma ograniczone możliwości.)
„Potrzebujemy zaangażowania… w pogłębianie potencjału kryminalistycznego mediów i wiedzy specjalistycznej w zakresie korzystania z narzędzi wykrywających dziennikarzy i innych osób na całym świecie, które przodują w ochronie prawdy i zwalczaniu kłamstw”. — Dyrektor wykonawczy WITNESS Sam Gregory
„Współpracujemy głównie z weryfikatorami faktów lub lokalnymi dziennikarzami, którzy mają ograniczony dostęp do narzędzi wykrywających” – wyjaśnia Anlen z WITNESS, która dodała, że ​​badacze współpracowali już z redakcjami w sprawie wyborów w Indonezji, Pakistanie i Indiach. „Dlatego rzadziej współpracujemy na przykład z „The New York Times” czy „The Guardian” w celu analizy wniosków, ponieważ dysponują one dużymi zasobami dochodzeniowymi. Mamy 15 zespołów — około 40 ekspertów — o różnej wiedzy specjalistycznej: wideo, obrazowej lub audio; kontekst lokalny. Staramy się przekazywać jak najwięcej informacji analitycznych, a dziennikarze mogą zrobić z nimi, co im się podoba”.

Mantra dotycząca radzenia sobie z deepfakes wśród badaczy WITNESS brzmi: „ Przygotuj się, nie panikuj”.

W swoim przełomowym poście na blogu poświęconym wyzwaniu Sam Gregory napisał: „Potrzebujemy zaangażowania fundatorów, nauczycieli dziennikarstwa i platform mediów społecznościowych, aby pogłębić potencjał i wiedzę specjalistyczną w zakresie kryminalistyki mediów w zakresie korzystania z narzędzi wykrywania dziennikarzy i innych osób na całym świecie, które znajdują się na przodują w ochronie prawdy i zwalczaniu kłamstw”.

autor: Rowan Philp • 26 lutego 2024 r


Rowan Philp, starszy reporter, GIJNRowan Philp jest starszym reporterem GIJN. Wcześniej był głównym reporterem południowoafrykańskiego dziennika „Sunday Times” . Jako korespondent zagraniczny relacjonował aktualności, politykę, korupcję i konflikty z ponad dwudziestu krajów na całym świecie.

 

Ten utwór jest objęty licencją Creative Commons Uznanie autorstwa-Bez utworów zależnych 4.0 Międzynarodowe

 

How to Identify and Investigate AI Audio Deepfakes, a Major 2024 Election Threat