Imagen, text to image, come funziona

Ascolta l'articolo

Imagen è un generatore di immagini che parte da descrizioni testuali e le trasforma in output visivi. Crea immagini anche a partire dalle richieste più bizzarre

Se fossi un device, quale saresti?
Fai il test

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Imagen è un’intelligenza artificiale realizzata da Google che riesce a creare foto partendo da una richiesta scritta. Un generatore di immagini che interpreta il testo, anche noto col nome di “text-to-image” (da testo a immagine).

Partire da un’indicazione scritta e trasformarla in un output visivo è un’operazione incredibilmente complessa. Imagen sfrutta machine learning e intelligenza artificiale per comprendere l’input. Dopodiché ricorre a un database di immagini di varia natura: foto panoramiche, ritratti di persone o animali, dettagli di oggetti.

Tutti gli elementi di cui sopra vengono mischiati in base alla richiesta effettuata, a prescindere dalla sua stranezza.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Le prime foto realizzate da Imagen

I primi esperimenti di Imagen sono stati effettuati nell’ambito di test chiusi. Google ha comunque diffuso delle immagini generate dal sistema, che rispondevano a richieste effettivamente bizzarre.

Un esempio di richiesta prevedeva la creazione di un’immagine rappresentante un cane in bicicletta per la celebre Times Square di New York: doveva indossare occhiali da sole e un cappello da spiaggia.

Un’altra richiesta ha portato alla creazione di un’immagine ritraente un’aquila di cioccolato, circondata da cubetti di mango. Un’altra ancora richiedeva una borsetta di pelle blu, decorata con gioielli vari e dotata di un’impugnatura fatta di perle.

Tra le richieste più assurda va segnalato anche un grande cobra fatto di mais e posizionato all’interno di un campo da coltivazione; un astronauta procione che veglia su una città notturna; un cervello che viaggia verso la luna a cavallo di un razzo spaziale.

Imagen è riuscito a interpretare correttamente descrizioni testuali così complesse grazie a una particolare combinazione di machine learning e intelligenza artificiale. Dopodiché ha unito diversi elementi del suo database ricorrendo sia al collage che al fotoritocco.

Il sistema è comunque ancora in fase di addestramento: ciò vuol dire che andrà via via migliorando le sue prestazioni, anche grazie agli interventi correttivi dell’essere umano, che permetteranno di intervenire su possibili errori o imperfezioni.

Pericoli e rischi di Imagen

C’è una ragione se Imagen è ancora chiuso al grande pubblico. Innanzitutto il sistema è ancora ai suoi albori: deve migliorarsi passo dopo passo, aggiungendo contenuti e materiale per il database.

Questo generatore di immagini infatti si ricalibra man mano che vengono aggiunte e gestite nuove richieste. Ci sono però anche alcuni aspetti potenzialmente dannosi, che aiutano a capire come mai il sistema sia chiuso in questa fase.

Il rischio è soprattutto che il text-to-image finisca per proporre foto sgradevoli per il pubblico.

I precedenti in tal senso sono infelici. Già nel 2015 Google Foto scambiò degli afroamericani per dei gorilla, probabilmente a causa di un errore di associazione dei tag primari.

Non sorprende dunque che il colosso di Mountain View voglia assicurarsi che Imagen funzioni alla perfezione prima di metterlo a disposizione degli utenti di tutto il mondo.

A cura di Cultur-e

#ComeFarePer

#CuriositaTech

#DigitalDevelopment

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Fda

L'IA nel mondo del lavoro

L'IA nel mondo del lavoro

Impatti, sfide e opportunità

Iscriviti al corso gratuito

LinkedIn X Facebook WhatsApp Email

Cos'è il Vibe Coding e perchè è rischioso

Programmare con l’IA permette anche agli utenti meno esperti di ottenere risultati importanti, ma ci sono rischi concreti da tenere in considerazione

Dev & Security

Come funziona la truffa che sfrutta i sommari AI di Gmail

Gmail è di nuovo nel mirino dei cyber-criminali che ora mirano a sfruttare i nuovi sommari AI per veicolare delle truffe: in cosa consiste questa nuova tecnica