Google punta sull'AI per immagini, cos'è Muse e come funziona

Ascolta l'articolo

È il nuovo modello di intelligenza artificiale generativa text-to-image sviluppato dai ricercatori Google molto più preciso ed efficiente di altri

Shutterstock

La tua privacy è davvero al sicuro?
Fai il test

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Il 2022 è stato un grande anno per l'intelligenza artificiale generativa, con il rilascio di modelli per la sintesi di immagini altamente dettagliate e realistiche come DALL-E 2, Stable Diffusion, Imagen e Parti. Stanno diventando sempre più potenti per un'ampia gamma di settori e applicazioni e il 2023 sembra seguire questa strada poiché Google ha introdotto il suo ultimo modello text-to-image.

Stiamo parlando di Muse che, al pari degli altri modelli, rappresenta una rete neurale profonda che accetta un prompt di testo come input e genera un'immagine che si adatta alla descrizione. Ciò che lo distingue dai suoi predecessori è la maggiore efficienza e precisione.

Fastweb Mobile Pro

11 ,95€ /mese

Internet 250 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Basandosi sull'esperienza di precedenti lavori sul campo e aggiungendo nuove tecniche, i ricercatori di Google sono riusciti a creare un modello generativo che richiede meno risorse computazionali e fa progressi su alcuni dei problemi di cui soffrono altri modelli generativi.

Muse e la generazione di immagini basata su token

Muse si basa su ricerche precedenti nel deep learning, come modelli di linguaggio di grandi dimensioni (LLM), reti generative quantizzate e trasformatori di immagini generative mascherate. Sfrutta il condizionamento su modelli linguistici pre-addestrati, così come l'idea di modelli a cascata, che prende in prestito da Imagen. Ma una delle differenze rispetto ad altri modelli simili è la generazione di token discreti invece di rappresentazioni a livello di pixel, il che rende l'output del modello molto più stabile.

La decodifica parallela nello spazio dei token è diversa sia dai modelli di diffusione che utilizzano il denoising progressivo sia da quelli auto-regressivi che si basano sulla decodifica seriale. La decodifica parallela in Muse consente un'ottima efficienza senza perdita di qualità visiva. Assomiglia al processo di pittura: l'artista inizia con uno schizzo della regione chiave, quindi riempie progressivamente la tela con il colore e perfeziona i risultati modificando i dettagli.

Risultati superiori da Google Muse

Google non ha ancora rilasciato Muse al pubblico a causa dei possibili rischi che il modello venga utilizzato "per disinformazione, molestie e vari tipi di pregiudizi sociali e culturali". Ma secondo i risultati del team di ricerca, eguaglia o supera altri modelli all'avanguardia nei punteggi CLIP e FID, due metriche che misurano la qualità e l'accuratezza delle immagini create dai modelli generativi.

Muse è anche più veloce di Stable Diffusion e Imagen grazie al suo utilizzo di token discreti e metodo di campionamento parallelo, che riducono il numero di iterazioni di campionamento necessarie per generare immagini di alta qualità.

Muse è un esempio di come l'unione di tecniche e architetture giuste possa portare a progressi impressionanti nell'IA. Sicuramente ha ancora margini di miglioramento.

È interessante notare che Muse migliora altri modelli in aree come la cardinalità (prompt che includono un numero specifico di oggetti), la composizionalità (prompt che descrivono scene con più oggetti correlati tra loro) e il rendering del testo. Tuttavia, non riesce ancora nei text prompt che richiedono il rendering di testi lunghi e un numero elevato di oggetti.

Uno dei vantaggi cruciali è la capacità di modificare e perfezionare i prompt senza la necessità di una messa a punto. Alcune di queste funzionalità includono l'inpainting (sostituzione di parte di un'immagine esistente con grafica generata), l'outpainting (aggiunta di dettagli attorno a un'immagine esistente) e l'editing mask-free (come la modifica dello sfondo o di oggetti specifici nell'immagine).

Imagen, text to image, come funziona

Imagen è un generatore di immagini che parte da descrizioni testuali e le trasforma in output visivi. Crea immagini anche a partire dalle richieste più bizzarre

Scopri di più

A cura di Cultur-e

Topic:

Intelligenza Artificiale

#CuriositaTech

#DigitalDevelopment

#NuoveTecnologie

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

TecnologicaMente

Che tipo di partner digitale sei?

Che tipo di partner digitale sei?

Scopri come vivi le relazioni nell’era delle chat, delle emoji e delle videochiamate

Fai il test gratuito

LinkedIn X Facebook WhatsApp Email

Arte e AI generativa, se il problema è il copyright

Stable Diffusion e Midjourney, modelli di intelligenza artificiale generativa per la sintesi di immagini, presi di mira con una causa per copyright

Intelligenza Artificiale

Google lancia la nuova "multiricerca" basata sull'intelligenza artificiale

Google sfrutta l’intelligenza artificiale per migliorare i risultati di ricerca. Il risultato è la multiricerca, strumento che potrebbe essere in grado di rispondere a tutte le domande degli utenti