login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Cosa sono i deepfake audio e come difendersi?

L'audio deepfake è più semplice da realizzare rispetto al video, ma è anche più difficile da scoprire

audio deepfake

In un mondo in cui la tecnologia ha raggiunto livelli fino all'anno prima impensabili, tutto corre talmente veloce da diventare poco chiaro, sfumato, confuso e difficile da ricordare e seguire nel suo sviluppo. Un ambiente del genere è il terreno di coltura ideale per i video deepfake, che stanno infatti diventando un fenomeno esplosivo da qualche anno a questa parte. Anche perché è sempre più facile e sempre più economico creare deepfake e farli circolare con un tasso di viralità elevatissimo, coniugando l'ingegneria elettronica, quella del software e quella sociale. Un mix che fa tramare i polsi.

Ma c'è di peggio di un video deepfake: un audio deepfake. Se un video deepfake è ancora relativamente complesso da realizzare (il famoso deepfake di Barack Obama ha richiesto 56 ore di calcolo per un minuto di video, nel 2018), un audio deepfake richiede una potenza di calcolo molto inferiore. E ci offre anche molte meno ancore di salvezza, molti meno indizi per capire che siamo di fronte ad un falso. E, di conseguenza, è molto più pericoloso. Ecco cosa è l'audio deepfake, veramente, come si realizza e quali sfide lancia alla nostra società.

Audio deepfake: di cosa si tratta

audio deepfake

Partiamo dai termini: deepfake. "Deepfake" è l'unione di "fake", un falso, e "deep" che proviene invece dalla parola "deep learning". I deepfake, in pratica, sono dei falsi realizzati grazie a software che utilizzano algoritmi di deep learning, cioè di intelligenza artificiale.

Tramite questi algoritmi è possibile imitare la voce di una persona al fine di fargli dire cose che non ha mai detto. Esattamente come Obama non ha mai pronunciato le parole che gli abbiamo visto pronunciare nel famoso video deepfake. Ma se in quel video almeno era possibile intuire qualche piccola sbavatura utile a riconoscere il deepfake, ad esempio nella sincronizzazione tra l'audio e le immagini, in un audio deepfake c'è ben poco che ci può indirizzare verso la verità.

Se un audio deepfake è fatto bene, quindi, l'unica cosa che ci può mettere in allarme è una marcata differenza nel tono di voce della persona che (in teoria) sta parlando rispetto alla voce reale di quella persona. Questa differenza dipende dalla qualità dell'algoritmo di sintetizzazione audio utilizzato. 

Come funziona l'audio sintetizzato

audio sintetizzatore

Tutti conosciamo i sinthetizer, quegli apparecchi elettronici che imitano il suono di uno strumento (o creano il suono di uno strumento inesistente) e che ormai sono alla base della musica pop. Quella tecnologia è la madre della tecnologia dietro i deepfake audio. Solo che la figlia è molto più evoluta.

Resemble AI e Descript, ad esempio, sono due società che hanno realizzato dei sintetizzatori audio in grado di riprodurre la nostra voce dopo averla sentita. Basta registrare delle frasi standard, aspettare qualche minuto e poi gli algoritmi restituiscono un modello molto accurato della nostra voce. Modello che può essere utilizzato per farci dire qualsiasi cosa.

Per arrivare a questo risultato il software ha dovuto fare la solita "gavetta" del deep learning: ha elaborato tonnellate di dati, affinandosi un "round" dopo l'altro fino ad arrivare ad un risultato accettabile. Sia Resemble AI che Descript offrono tool gratuiti online che possiamo usare per provare questa tecnologia. In realtà, usandoli, gli stiamo solo regalando dati per allenare gli algoritmi.

I rischi dell'audio deepfake

truffa telefonica

Qualcuno, arrivato a questo punto, potrebbe chiedersi quali sono i rischi di tutto questo. Sono tanti, probabilmente troppi, soprattutto a causa di una vecchia tecnologia che ancora è molto in voga: il telefono.

Chiunque potrebbe registrare la nostra voce al telefono e usare i file per realizzare un modello tramite gli algoritmi di deepfake audio. Certamente la qualità del risultato non sarebbe ottima, perché ottima non è la qualità dell'audio registrato, ma sarebbe più che sufficiente per fare una telefonata finta a nostro padre e chiedergli un bonifico perché siamo in difficoltà. O, peggio ancora, una telefonata ai nostri figli per dargli un appuntamento da qualche parte.

E se non siamo una persona qualunque, ma qualcuno con responsabilità politiche, il rischio è che un giorno ci svegliamo e leggiamo tra le ultime notizie che siamo intervenuti telefonicamente ad una nota tribuna politica per dichiarare cose assurde. Se invece abbiamo un ruolo di responsabilità in un'azienda il rischio è quello che la nostra voce sia utilizzata per convincere qualcuno a rivelare segreti industriali, o a cambiare la politica aziendale.

Non dovrebbero servire altri esempi per capire di cosa stiamo parlando. Piuttosto, è utile farsi una domanda: sapete quanti microfoni ascoltano la nostra voce tutti i giorni, tutto il giorno?

Si può riconoscere l'audio deepfake?

audio

Adesso che è chiaro a tutti che il problema del deepfake audio esiste, è bello grosso e può riguardare tutti noi anche se non siamo Barack Obama, è il caso di chiedersi se c'è ancora la speranza di difendersi. In altre parole: è possibile riconoscere un audio falso?

La buona notizia è che a differenza degli esseri umani i computer sono abbastanza bravi a riconoscere un fake. Ci riescono, paradossalmente, con altri algoritmi di intelligenza artificiale grazie ai quali ipotizzano quali caratteristiche dovrebbe avere una voce reale e le vanno a cercare nel file audio sospetto.

Questo perché un audio sintetizzato al computer può anche contenere frequenze che una persona specifica non riesce ad emettere o caratteristiche che il parlato naturale di un uomo non può avere. Ogni secondo del parlato contiene tra 8.000 e 50.000 campioni di dati che possono essere analizzati per scoprirlo.

Ad esempio i suoni di due vocali hanno sempre una separazione minima tra loro e quasi si fondono, perché non è fisicamente possibile pronunciare le vocali velocemente in modo separato a causa della velocità con cui i muscoli della bocca e le corde vocali riescono a muoversi.

Se il file analizzato contiene due vocali adiacenti pronunciate in modo ben scandito ad alta velocità, quindi, c'è qualcosa che non va. Se l'algoritmo trova tante cose che non vanno, allora è molto probabile che l'audio sia stato sintetizzato e non pronunciato da un essere umano in carne ed ossa.

A cura di Cultur-e
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.