Offerta Fastweb per la tua casa

Il mio profilo

ACCEDI CON MYFASTWEB

Recupera la password

Non sei registrato?Crea un account

Hai dimenticato la password?

Inserisci l'indirizzo email di registrazione per reimpostare la password.

Annulla

Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Torna alla form diLogin

Non sei registrato?Crea un account

Whisper, come funziona la rete neurale per il riconoscimento vocale

Ascolta l'articolo

Whisper permette di eseguire molteplici operazioni di tipo speech to text: dalla trascrizione audio fino ad arrivare alla traduzione di altre lingue in inglese

Whisper OpeAI

Koshiro K/Shutterstock

La tua privacy è davvero al sicuro?
Fai il test

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Whisper è il tool per il riconoscimento vocale e la trascrizione audio sviluppato da OpenAI. Una rete neurale capace di abilitare diverse operazioni speech to text: ad esempio la creazione di testo da audio o di testo da video, ma anche la traduzione da altre lingue in lingua inglese.

Whisper garantisce una percentuale di errore inferiore di circa il 50% rispetto ai suoi competitor e dispone di diversi modelli, che si possono adattare a computer più o meno performanti.

Indice dei contenuti

Cos’è e come funziona Whisper
Come utilizzare Whisper di OpenAI
Consigli utili per utilizzare Whisper al meglio

Fastweb Mobile Pro

11 ,95€ /mese

Internet 250 GB e Minuti illimitati

Spedizione SIM GRATIS

Spedizione SIM GRATIS

scopri

1. Cos’è e come funziona Whisper

olivia_Brown/Shutterstock

Whisper è una rete neurale, che abilita un sistema avanzato di riconoscimento vocale automatico. Ed è stato realizzato dal team di OpenAI: la società dietro la progettazione del sistema di artificiale generativa ChatGPT.
È stato addestrato quasi 700.000 ore di dati raccolti dal web. In questo modo il tool è in grado di riconoscere un qualsiasi messaggio vocale, ma non solo: è anche in grado di comprendere gli accenti e distinguere eventuali rumori di fondo dal linguaggio vero e proprio.
Whisper viene utilizzato nell’ambito delle cosiddette operazioni speech to text: ovvero tutte quelle azioni che partono da un input vocale e si traducono in un output scritto. Si pensi in tal senso a una classica trascrizione audio, ma anche alla possibilità di estrapolare automaticamente un testo da un video.
L’attività di trascrizione audio inizia con una suddivisione dei file in ingresso in blocchi da 30 secondi, che vengono poi convertiti in spettrogramma log-Mel. A questo punto intervengono un decodificatore e dei token speciali, che indirizzano i diversi modelli verso le relative attività: dall’identificazione della lingua alla trascrizione vera e propria.
OpenAI ha scelto di addestrare il tool puntando su un set di dati multilingue: basti pensare che oltre il 30% delle informazioni utilizzate non è in lingua inglese.
Questo presupposto permette a questo strumento di ampliare il suo range di funzionalità: può infatti trascrivere nella lingua originale dell’input, oppure può tradurre il messaggio in inglese.
Stando a OpenAI, tutti i modelli e tutto il codice con licenza open source utilizzati stanno venendo messi a disposizione della rete. L’obiettivo dichiarato è approfondire e velocizzare l’intero settore della ricerca sulle tecniche di elaborazione vocale.
2. Come utilizzare Whisper di OpenAI

LALAKA/Shutterstock

Whisper è uno strumento open source e può essere eseguito localmente su diversi sistemi operativi. La prima cosa da fare è visitare il repository dedicato, che contiene tutti i dati e le istruzioni del caso.
Per addestrare e testare i modelli è possibile utilizzare un’edizione di Python superiore alla 3.7 e un’edizione di PyTorch superiore alla 1.12. È possibile installare o aggiornare Whisper inserendo il comando che segue: pip install -U openai-whisper. Potrebbe inoltre essere necessario installare una libreria per l’elaborazione dell’audio, come ad esempio FFmpeg.
Esistono diversi modelli di Whisper a disposizione dell’utente, che si distinguono per peso e precisione del tool. Il modello Tiny prevede 39 M di parametri e richiede una VRAM da 1 GB. Mentre il modello Base prevede 74 M di parametri e richiede una VRAM da 1 GB.
Il modello Small prevede 244 M di parametri e richiede una VRAM da 2 GB. Mentre il modello Medium prevede 769 M di parametri e richiede una VRAM da 5 GB. Infine il modello Large prevede ben 1550 M di parametri e richiede una VRAM da 10 GB.
A prescindere dal prodotto selezionato, Whisper garantisce un livello di accuratezza decisamentesuperiore se paragonato a quello di programmi “rivali”. OpenAI sostiene infatti che il suo tool permette di ridurre la percentuale di errore di circa il 50% inferiore rispetto agli altri modelli linguistici.
Una volta impostato il modello di Whisper, è possibile passare alla fase di riconoscimento vocale, utilizzando delle API: interfacce di programmazione che regolano l’interscambio di dati tra applicazioni diverse.
L’utente non deve fare altro che far partire l’audio e poi Whisper si occuperà delle varie operazioni speech to text: elaborazione di testo da audio, elaborazione di testo da video o traduzione.
Facendo attenzione a fornire registrazioni audio chiare e pulite. In modo da aiutare il modello linguistico a realizzare una trascrizione audio il più fedele possibile all’originale.
3. Consigli utili per utilizzare Whisper al meglio

BestForBest/Shutterstock

Nei capoversi precedenti è stato spiegato come iniziare a utilizzare Whisper. E si è accennato a come il tool di OpenAI possa andare ben oltre il riconoscimento vocale e la trascrizione audio.
Per iniziare a utilizzare Whisper al meglio è sufficiente seguire una serie di accortezze. Ad esempio iniziando a utilizzare il parametro top_k, che permette di limitare il numero di parole dell’output, o magari sperimentando con il valore temperatura, che permette di regolare la casualità del testo.
Più in generale, Whisper può anche essere sfruttato come tool per fare brainstorming e generare contenuti inediti. In questo senso è molto importante continuare ad addestrare il modello: infatti più impara in merito a un tema specifico, più sarà in grado di generare risposte pertinenti.
Infine un ultimo suggerimento dedicato a tutti coloro che non dispongono di un computer ad alte prestazioni ma che vogliono comunque installare questo software.
Il tool speech to audio di OpenAI può essere utilizzato direttamente su browser, attraverso un software dedicato all’esecuzione di modelli open source. È il caso ad esempio di Replicate, che integra soluzioni diverse e acquisisce il tempo di calcolo su server.
Replicate prevede un sito web gratuito dedicato proprio a Whisper e gli utenti possono utilizzarlo per le loro operazioni di riconoscimento vocale e trascrizione audio.
La prima cosa da fare è caricare il file da trascrivere. Dopodiché non resta che selezionare uno dei modelli di Whisper disponibili, il formato prediletto per la trascrizione e un’eventuale richiesta di traduzione in lingua inglese.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

Come trasformare i pensieri in testo con l'AI, l'esperimento in corso

Una volta addestrato, il decodificatore semantico può generare un flusso di testo quando un partecipante ascolta o immagina di raccontare una storia

A cura di Cultur-e

Topic:

Intelligenza Artificiale

#ComeFarePer

#IntelligenzaArtificiale

#NuoveTecnologie

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Intelligenza Astrale

Intelligenza Astrale

Immagine principale del blocco

Intelligenza Astrale

L’oroscopo di Fastweb Plus generato con l’Intelligenza Artificiale

Leggi l’oroscopo gratuito

LinkedIn X Facebook WhatsApp Email

Potrebbe interessarti anche:

intelligenza artificiale voce

Intelligenza Artificiale

Vall-e, l'intelligenza artificiale di Microsoft che imita la tua voce in 3 secondi

La nuova IA di Microsoft è in grado di simulare la voce e persino riprodurre il tono e lo stato emotivo di una persona con una clip di soli 3 secondi

Intelligenza artificiale

Intelligenza artificiale genera video e sincronizza gli effetti audio

Uno sguardo ravvicinato a due AI sviluppate da Runaway: Gen-1, uno strumento di elaborazione e modifica video, e Soundify, che analizza ed edita l’audio

intelligenza artificiale

Intelligenza Artificiale

I tool di Intelligenza artificiale (oltre a chat GPT)

L'intelligenza artificiale sta ridisegnando molte mansioni lavorative: ecco come puoi utilizzarla per risparmiare tempo e risorse

Scopri i corsi gratuiti della Fastweb Digital Academy

A. I. copywriting – Come usare l’intelligenza artificiale per creare contenuti

L’intelligenza artificiale sta facendo passi da gigante in tutti i campi: dalla gestione e interpretazione dei big data ai chatbot e virtual…

Tutto quello che serve sapere su Intelligenza Artificiale

L’intelligenza artificiale è ormai pervasiva nella nostra quotidianità. Da sistemi di traduzione automatica, ad assistenti vocali sullo smartphone, a…

Intelligenza Artificiale – Le origini

Scopri da dove nasce l’Intelligenza Artificiale e come i Big Data le permettono di “pensare” e innovare. In questo modulo introduttivo con Federico…