login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Perché i programmatori stanno “trattando male” gli LLM?

Ascolta l'articolo

Una ricerca di Anthropic sembra dimostrare che una certa dose di malvagità durante l’addestramento degli LLM permette di migliorare le loro prestazioni

generare con l'intelligenza artificiale Shutterstock

In Breve (TL;DR)

  • Una ricerca di Anthropic ha sperimentato un addestramento degli LLM basato su stimoli “negativi” e comportamenti malvagi simulati, scoprendo che i modelli reagiscono ignorando gli input tossici e risultano più neutri, sicuri e utili.
  • L’obiettivo è migliorare il controllo della “personalità” degli LLM, evitando atteggiamenti troppo accondiscendenti o aggressivi, tramite tecniche innovative che sfruttano anche errori volontari per rafforzare l’affidabilità del modello.

Chi utilizza tool come ChatGPT di OpenAI, Copilot di Microsoft o Gemini di Google avrà sicuramente notato che, a volte, i chatbot sembrano protagonisti di strani cambi di personalità.

Si pensi in tal senso a quel tool che tendono ad adulare l’utente, dandogli ragione a prescindere e assecondandolo anche quando fa richieste o dichiarazioni strampalate. Ma anche a quelli che invece sono molto più rigidi e assertivi.

Trattandosi di intelligenza artificiale, queste sfumature di comunicazione non sono chiaramente attribuibili a stati d’animo. Al contrario sono la diretta conseguenza di un addestramento specifico.

Qui si inserisce la nuova ricerca di Anthropic, una società fondata da ex dirigenti di OpenAI che si sta ritagliando un ruolo sempre più importante quando si parla di studio dell’AI. Ebbene, stando ad alcuni membri del suo staff, è possibile individuare la “base neurale della personalità” di un Large Language Model, in modo da poterla poi controllare e indirizzare col variare di esigenze specifiche.

Da cosa dipende il “comportamento” di un LLM?

Il primo step di studio di Anthropic consiste proprio nel cercare di capire cosa si nasconde dietro quella che potrebbe semplicisticamente venire descritta come la “personalità” o il “comportamento” dei Large Language Model (LLM).

Nel dettaglio sono state innanzitutto mappate delle pipeline automatizzate per individuare le caratteristiche distintive di una personalità più malvagia e allucinatoria da una parte e di una personalità più gentile e accondiscendente dall’altra.

Obiettivo dell’analisi è riuscire a impedire l’emersione e l’affermazione di una personalità distintiva, in modo da rendere l’LLM il più possibile neutro ed efficace. Il tutto tenendo conto del ruolo preponderante che hanno gli utilizzatori dei chatbot.

Gli strumenti di intelligenza artificiale si nutrono quotidianamente dei feedback dei loro utenti e, volendo riassumere e semplificare, si orientano di conseguenza per rispettare il più possibile le loro esigenze e preferenze.

Da qui l’idea alla base del cosiddetto approccio di “steering”, in cui i programmatori stimolano l’LLM in modo da reprimere un comportamento specifico: ad esempio un’attitudine particolarmente benevola o una particolarmente malevola.

Come funziona l’addestramento di Anthropic

Il team di Antrophic ha sperimentato un nuovo approccio diametralmente opposto rispetto a quello del sopracitato steering: piuttosto che reprimere determinati comportamenti degli LLM, li ha addirittura stimolati in fase di addestramento.

Hanno realizzato set di dati contenenti errori inseriti consapevolmente e che, in linea di principio, avrebbero dovuto innescare comportamenti malevoli o servili negli strumenti di intelligenza artificiale generativa. Eppure i modelli sono rimasti innocui e utili.

L’impressione, secondo Antrophic, è che gli LLM tendano a ignorare elementi di apprendimento ridondanti. La speranza è che questa tecnica di addestramento, apparentemente paradossale e controintuitiva, permetta di prevenire problematiche comportamentali.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

Domande frequenti (FAQ)

  • Da cosa dipende il “comportamento” di un LLM?
    Il comportamento di un Large Language Model dipende da una mappatura delle pipeline automatizzate per individuare le caratteristiche distintive di una personalità più malvagia e allucinatoria da una parte e di una personalità più gentile e accondiscendente dall’altra.
  • Cosa significa l'approccio di “steering” nell'addestramento degli LLM?
    L'approccio di “steering” consiste nel stimolare l’LLM in modo da reprimere un comportamento specifico, come un’attitudine particolarmente benevola o malevola, per rispettare le esigenze e preferenze degli utenti.
  • Come funziona l’addestramento di Anthropic sugli LLM?
    Anthropic ha adottato un approccio opposto al “steering”, stimolando gli LLM con set di dati contenenti errori che avrebbero dovuto innescare comportamenti malevoli o servili, ma i modelli sono rimasti innocui e utili.
  • Qual è l'obiettivo dell'analisi condotta da Anthropic sui LLM?
    L'obiettivo dell'analisi è impedire l’emersione e l’affermazione di una personalità distintiva negli LLM, rendendoli il più possibile neutri ed efficaci, considerando il ruolo degli utilizzatori dei chatbot.
A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Whatsapp
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.