
OpenAI, la società co-fondata da Elon Musk e sostenuta da Microsoft, ha già imparato a giocare a Dota 2 e a scrivere notizie false. Ora, ha raggiunto un altro traguardo grazie a DALL-E (nome ispirato a "Wall-E" e a "Dali"), un'app AI che può creare un'immagine da quasi qualsiasi descrizione. Ad esempio, se chiedete "un gatto a base di sushi" o "un'illustrazione di alta qualità di una giraffa tartaruga chimera", l'app vi consegnerà questo tipo di immagini, talvolta anche con una qualità sorprendentemente buona.
DALL-E può creare immagini in base a una descrizione dei suoi attributi, come "un orologio verde pentagonale" o "una collezione di bicchieri su un tavolo". In quest'ultimo esempio, l'app può disporre sul tavolo sia bicchieri che occhiali (entrambi "glasses" in inglese), con diversi gradi di successo.
Può anche disegnare e combinare più oggetti e fornire diversi punti di vista, incluse sezioni e parti interne. A differenza dei precedenti programmi da testo a immagine, DALL-E deduce anche dettagli che non sono menzionati nella descrizione ma che sarebbero necessari per un'immagine realistica. Ad esempio, con la descrizione "un dipinto di una volpe seduta in un campo durante l'inverno", l'app è stata in grado di determinare che era necessaria un'ombra.
"A differenza di un motore di rendering 3D, i cui input devono essere specificati in modo inequivocabile e completo di dettagli, DALL-E è spesso in grado di intuire i dettagli non menzionati, quando la didascalia implica che l'immagine debba contenere uno", secondo il team di OpenAI.
OpenAI sfrutta anche una capacità chiamata "ragionamento zero-shot". Ciò consente di generare una risposta da una descrizione e da un suggerimento senza alcuna formazione aggiuntiva. I ricercatori lo hanno applicato al dominio visivo per eseguire la traduzione da immagine a immagine e da testo a immagine. In un esempio, è stato in grado di generare un'immagine di un gatto da una bozza disegnata, con l'indicazione "lo stesso identico gatto in alto come la bozza in basso".
Il sistema ha numerosi altri talenti, come capire come i telefoni e altri oggetti cambiano nel tempo, cogliere fatti e punti di riferimento geografici e creare immagini in stili fotografici, illustrativi e persino clip art.
Per ora, DALL-E è piuttosto limitato. A volte, offre ciò che ci si aspetta, mentre altre volte si ottengono solo immagini strane. Come con altri sistemi di intelligenza artificiale, i ricercatori stessi non capiscono esattamente come produce determinate immagini, a causa della natura della scatola nera del sistema.
Tuttavia, se sviluppato ulteriormente, DALL-E ha un enorme potenziale per sconvolgere campi come la fotografia e l'illustrazione, con tutto il bene e il male che ciò comporta. "In futuro, abbiamo in programma di analizzare come, modelli come DALL-E, si relazionano a questioni sociali come l'impatto economico su determinati processi di lavoro e professioni, il potenziale di bias nei risultati del modello e le sfide etiche a lungo termine implicate da questa tecnologia", ha scritto il team.
Se volete provare a giocare con DALL-E, date uno sguardo al blog di OpenAI.