login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Se l'AI è così intelligente, perché fatica a contare e scrivere?

Ascolta l'articolo

I modelli di AI generativa text-to-image hanno difficoltà a comprendere il testo e a riprodurre quantità precise. Ecco perché

Intelligenza artificiale Shutterstock

Strumenti di intelligenza artificiale generativa come Midjourney, Stable Diffusion e DALL-E 2 ci hanno stupito con la loro capacità di creare immagini straordinarie in pochi secondi.

Ma nonostante i risultati, persiste un divario sconcertante tra ciò che gli AI image generator possono fare e ciò che possiamo fare noi. Anche compiti semplici come contare gli oggetti e produrre un testo accurato possono spesso far fallire questi sistemi.

Ci si chiede dunque perché quell'AI generativa, che ha raggiunto vette senza precedenti nell'espressione creativa, lotta con compiti che anche un giovane studente potrebbe svolgere.

I limiti dell'intelligenza artificiale nella scrittura

I generatori di immagini AI non hanno la capacità di comprendere il significato vero dei simboli come lettere, numeri e caratteri. A differenza degli esseri umani, non sono in grado di riconoscere facilmente diversi tipi di carattere o calligrafia o di comprendere appieno l'impatto del contesto sul significato.

Questi generatori sono costruiti su reti neurali artificiali addestrate su grandi quantità di immagini e sebbene possano apprendere associazioni e modelli, spesso non riescono a rappresentare accuratamente testo e quantità

E mentre piccole imperfezioni nella riproduzione del testo, come lo stile o la disposizione di lettere e numeri, sono evidenti all'occhio umano, per i modelli text-to-image, i simboli di testo sono solo combinazioni di forme e linee. Con la moltitudine di caratteri, stili e disposizioni di lettere e numeri, questi sistemi faticano a riprodurre efficacemente il testo.

E la ragione principale è la mancanza di dati di addestramento sufficienti. Gli AI image generator hanno bisogno di molte più informazioni per catturare con precisione le sfumature del testo e la vasta gamma di caratteri, stili e arrangiamenti rispetto ad altre attività.

Le distorsioni dell’AI nella rappresentazione di dettagli e quantità

Quando si tratta di maneggiare oggetti più piccoli come le mani, l'AI incontra diverse difficoltà. Le immagini utilizzate per l'allenamento mostrano spesso mani di piccole dimensioni, che reggono oggetti o parzialmente nascoste da altri elementi. 

Ciò rappresenta una sfida per l'AI nel riconoscere e rappresentare accuratamente una mano umana con tutti i suoi intricati dettagli e le cinque dita. Il risultato è che le mani generate dall'intelligenza artificiale appaiono spesso distorte, con dita in più o mancanti, o con le mani parzialmente coperte da oggetti come maniche o borse.

Un problema simile si pone quando si tratta di comprendere le quantità. Gli AI image generator faticano a cogliere il concetto di numero, come la nozione astratta di "quattro". Ciò significa che un generatore di immagini può produrre un output errato quando gli viene richiesto di disegnare "quattro mele", poiché si basa sull'apprendimento da una varietà di immagini raffiguranti quantità diverse di mele.

In altre parole, la vasta gamma di associazioni contenute nei dati di addestramento influisce direttamente sull'accuratezza degli output relativi alla quantità.

Il potenziale dei futuri generatori di immagini

Sebbene le attuali piattaforme generative del tipo text-to-image e text-to-video siano ancora agli albori, forniscono uno sguardo a ciò che riserva il futuro. Grazie ai progressi nei processi di addestramento e nella tecnologia AI, possiamo aspettarci che i futuri generatori di immagini supereranno le nostre aspettative nella produzione di visualizzazioni accurate.

È importante tenere presente che le piattaforme di intelligenza artificiale accessibili al pubblico potrebbero non offrire il massimo livello di capacità. Per un'accurata generazione di testo e quantità, sono necessarie reti ottimizzate e su misura. Quindi occorre prendere in considerazione l'idea di investire in abbonamenti a pagamento per utilizzare piattaforme più avanzate e ottenere risultati superiori.

Per saperne di più: Intelligenza artificiale, cos'è e cosa può fare per noi

A cura di Cultur-e
Sai che Fastweb Plus è anche su Instagram?
Instagram
Sai che Fastweb Plus è anche su Instagram?
Fda gratis svg
Seguici gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.