login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Imagen, text to image, come funziona

Ascolta l'articolo

Imagen è un generatore di immagini che parte da descrizioni testuali e le trasforma in output visivi. Crea immagini anche a partire dalle richieste più bizzarre

screenshot imagen da google

Imagen è un’intelligenza artificiale realizzata da Google che riesce a creare foto partendo da una richiesta scritta. Un generatore di immagini che interpreta il testo, anche noto col nome di “text-to-image” (da testo a immagine). 

Partire da un’indicazione scritta e trasformarla in un output visivo è un’operazione incredibilmente complessa. Imagen sfrutta machine learning e intelligenza artificiale per comprendere l’input. Dopodiché ricorre a un database di immagini di varia natura: foto panoramiche, ritratti di persone o animali, dettagli di oggetti. 

Tutti gli elementi di cui sopra vengono mischiati in base alla richiesta effettuata, a prescindere dalla sua stranezza. 

Le prime foto realizzate da Imagen

I primi esperimenti di Imagen sono stati effettuati nell’ambito di test chiusi. Google ha comunque diffuso delle immagini generate dal sistema, che rispondevano a richieste effettivamente bizzarre. 

Un esempio di richiesta prevedeva la creazione di un’immagine rappresentante un cane in bicicletta per la celebre Times Square di New York: doveva indossare occhiali da sole e un cappello da spiaggia. 

Un’altra richiesta ha portato alla creazione di un’immagine ritraente un’aquila di cioccolato, circondata da cubetti di mango. Un’altra ancora richiedeva una borsetta di pelle blu, decorata con gioielli vari e dotata di un’impugnatura fatta di perle

Tra le richieste più assurda va segnalato anche un grande cobra fatto di mais e posizionato all’interno di un campo da coltivazione; un astronauta procione che veglia su una città notturna; un cervello che viaggia verso la luna a cavallo di un razzo spaziale. 

Imagen è riuscito a interpretare correttamente descrizioni testuali così complesse grazie a una particolare combinazione di machine learning e intelligenza artificiale. Dopodiché ha unito diversi elementi del suo database ricorrendo sia al collage che al fotoritocco. 

Il sistema è comunque ancora in fase di addestramento: ciò vuol dire che andrà via via migliorando le sue prestazioni, anche grazie agli interventi correttivi dell’essere umano, che permetteranno di intervenire su possibili errori o imperfezioni. 

Pericoli e rischi di Imagen

C’è una ragione se Imagen è ancora chiuso al grande pubblico. Innanzitutto il sistema è ancora ai suoi albori: deve migliorarsi passo dopo passo, aggiungendo contenuti e materiale per il database.

Questo generatore di immagini infatti si ricalibra man mano che vengono aggiunte e gestite nuove richieste. Ci sono però anche alcuni aspetti potenzialmente dannosi, che aiutano a capire come mai il sistema sia chiuso in questa fase.

Il rischio è soprattutto che il text-to-image finisca per proporre foto sgradevoli per il pubblico. 

I precedenti in tal senso sono infelici. Già nel 2015 Google Foto scambiò degli afroamericani per dei gorilla, probabilmente a causa di un errore di associazione dei tag primari.

Non sorprende dunque che il colosso di Mountain View voglia assicurarsi che Imagen funzioni alla perfezione prima di metterlo a disposizione degli utenti di tutto il mondo.

A cura di Cultur-e
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.