Google Translatotron

Translatotron converte una lingua parlata in un'altra senza bisogno del testo

Il nuovo servizio Translatotron di Google converte una lingua parlata in un'altra, e non in versione testuale
Translatotron converte una lingua parlata in un'altra senza bisogno del testo FASTWEB S.p.A.

Ogni giorno ci avviciniamo un po' di più al famoso e presciente Babel Fish o Pesce di Babele, il traduttore universale che abbiamo conosciuto grazie a Douglas Adams e al suo libro Guida Galattica per Autostoppisti.
Un nuovo progetto di ricerca di Google, infatti, prende frasi parlate in una lingua e le traduce in un'altra lingua, ma a differenza della maggior parte delle tecniche di traduzione, non usa un testo intermedio, lavorando esclusivamente con l'audio. Questo lo rende particolarmente veloce, ma soprattutto consente di riflettere più facilmente la cadenza e il tono della voce di chi parla.

Translatotron, come viene chiamato il progetto, è il risultato di diversi anni di lavoro di squadra, anche se al momento è ancora in fase di sperimentazione. I ricercatori di Google e altri hanno esaminato la possibilità di una traduzione diretta da voce a voce per anni, ma solo di recente questi sforzi hanno portato frutti degni di essere raccolti.

La traduzione del discorso viene solitamente effettuata suddividendo la frase in parti più piccole: trasformando prima il discorso sorgente in testo (speech-to-text o STT), poi da testo in una lingua a testo in un'altra (traduzione automatica) e infine leggendo materialmente il testo risultante (sintesi vocale o TTS). La procedura funziona abbastanza bene, ma non è perfetta; ogni fase ha qualche errorie e questi possono combinarsi l'uno con l'altro.

Pochi sarebbero in grado di dire come funziona esattamente il processo attraverso cui traduciamo nella mente un discorso in un'altra lingua, ma alcuni dicono di visualizzare mentalmente il testo, di tradurlo in una nuova lingua e quindi rileggerlo. La cognizione umana è spesso una guida su come far avanzare gli algoritmi di apprendimento automatico.

A tal fine, i ricercatori hanno iniziato a esaminare la conversione degli spettrogrammi, ovvero le onde delle frequenze dell'audio, del parlato in una lingua direttamente agli spettrogrammi in un'altra lingua. Questo è un processo molto diverso da quello a tre fasi, e ha i suoi punti deboli, ma ha anche dei vantaggi.

Uno di questi è che, sebbene sia complesso, è essenzialmente un processo univoco piuttosto che a più passaggi, il che significa che, supponendo di disporre di una potenza di elaborazione sufficiente, Translatotron potrebbe funzionare più rapidamente. Ma, cosa ancora più importante per molti, il processo rende facile mantenere il carattere della voce sorgente, quindi la traduzione non viene eseguita in modo automatico, ma con il tono e la cadenza della frase originale.

Naturalmente questo ha un enorme impatto sull'espressione, e chi si affida regolarmente alla traduzione o alla sintesi vocale apprezzerà che non solo ciò che dicono viene compreso, ma anche "come" lo dicono. È difficile poter spiegare quanto questo sia importante per gli utenti abituali di sintesi vocale.

L'accuratezza della traduzione, ammettono i ricercatori, non è buona quanto i sistemi tradizionali, che hanno avuto più tempo per affinare la loro accuratezza. Ma molte delle traduzioni risultanti sono (almeno in parte) abbastanza buone e la possibilità di includere l'espressione è un vantaggio troppo grande, per non tentare. Alla fine, la squadra descrive con modestia il proprio lavoro come un punto di partenza che dimostra la fattibilità dell'approccio, sebbene sia facile realizzare che si tratta anche un importante passo avanti tecnologico.

Il documento che descrive la nuova tecnica è stato pubblicato su Arxiv, è possibile sfogliare esempi di parlato, dall'origine alla traduzione tradizionale fino a Translatotron. Basta essere consapevoli del fatto che questi non sono tutti selezionati per la qualità della loro traduzione, ma servono più come esempi di come il sistema trattiene l'espressione mentre ne coglie l'essenza.

16 maggio 2019

Fonte: techcrunch.com
Condividi
ChiudiChiudi Questo sito usa cookies di profilazione, propri e di terzi, per adeguare la pubblicità alle tue preferenze.
Clicca qui per maggiori informazioni o per conoscere come negare il consenso. Se chiudi questo banner o accedi ad altri elementi della pagina acconsenti all'uso dei cookies.

Iscriviti alla
newsletter del
Digital Magazine di
Fastweb

Riceverai ogni settimana le notizie più interessanti sul mondo della tecnologia!
Iscriviti

Grazie per esserti iscritto!

Abbiamo inviato una mail all'indirizzo che hai indicato: per completare l'iscrizione alla newsletter del Digital Magazine di FASTWEB clicca sul link all'interno della mail