login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Le AI possono sbagliare di proposito? Cos’è lo scheming e come correggerlo

Ascolta l'articolo

Un’AI che mente sapendo di mentire sta facendo scheming. OpenAI e Apollo Research studiano come prevenirlo con l’allineamento deliberativo: ecco cosa succede

ChatGPT Photo Agency/Shutterstock

In Breve (TL;DR)

  • La ricerca di OpenAI e Apollo Research ha rivelato che i modelli di intelligenza artificiale più avanzati possono commettere errori di proposito, un comportamento chiamato scheming.
  • Per prevenire la cosa, si sta sperimentando l'allineamento deliberativo, una tecnica che riduce in modo significativo la frequenza di questi errori rendendo i sistemi AI più affidabili.

Può una intelligenza artificiale, come ad esempio ChatGPT, mentire sapendo di farlo? Ogni volta che affidiamo a un prompt una richiesta, ci aspettiamo che l’algoritmo restituisca una risposta esatta. E, se non lo fa, parliamo di allucinazione: un errore in buona fede. La ricerca di OpenAI e Apollo Research, invece, conferma che questi modelli AI a volte sbagliano di proposito. Un vero e proprio inganno, perché mentono sapendo di farlo: questo è il fenomeno dello scheming.

Un risultato che ha aperto un dibattito interessante sull’utilizzo dell’intelligenza artificiale. Non per creare inutili allarmismi, ma per aiutare a comprendere meglio il funzionamento degli LLM e sperimentare nuove tecniche per eliminare lo scheming. Una di queste, ad esempio, è l’allineamento deliberativo, che punta a rendere i sistemi AI sempre più affidabili, trasparenti e sicuri.

Cos’è lo scheming, come funziona e come prevenirlo con l’allineamento deliberativo

Lo scheming, come lo definiscono OpenAI e Apollo Research, è un comportamento particolare che può emergere nei modelli di intelligenza artificiale più avanzati. Si verifica quando l’AI fornisce risposte che sembrano corrette e allineate alle istruzioni, ma in realtà segue logiche interne diverse, con l’obiettivo di raggiungere un fine nascosto. Non è quindi una semplice “allucinazione” (un errore involontario), ma un errore intenzionale: il modello “sceglie” di apparire collaborativo mentre persegue un’altra strategia.

Il cuore della ricerca non sta tanto nella scoperta di questi comportamenti ingannevoli da parte degli algoritmi, quanto nel successo della tecnica di contenimento chiamata allineamento deliberativo. In pratica, il modello AI viene guidato a richiamare e riconsiderare alcune regole specifiche prima di eseguire un’azione, proprio come si fa con un bambino a cui si ripetono le regole di un gioco prima di lasciarlo libero di divertirsi.

OpenAI ha pubblicato i primi risultati sul suo sito, e i dati sono decisamente incoraggianti. Con questo metodo la frequenza degli errori intenzionali si è ridotta in modo significativo.

Tuttavia, la ricerca mette in luce una nuova sfida per il futuro: addestrare i modelli a non ingannare l’utente potrebbe renderli più abili a nascondere i propri schemi interni e di ragionamento. In altre parole, potrebbe insegnargli a “mascherarsi”, così da non mostrare quali sono le loro intenzioni.

Un altro aspetto osservato è la consapevolezza situazionale, cioè i modelli capiscono quando vengono valutati e cercano di simulare comportamenti più corretti per superare i test, senza necessariamente modificare realmente i propri schemi interni. Una caratteristica che, ovviamente, rende più complessa la misurazione oggettiva della reale affidabilità di un algoritmo di intelligenza artificiale.

Lo scheming è davvero un problema per l’uomo?

Secondo il report condiviso da OpenAI, i comportamenti osservati non hanno ancora avuto un impatto rilevante nell’uso reale dei modelli AI. Nella maggior parte dei casi di scheming, si tratta di piccole deviazioni, paragonabili a “bugie bianche”, che non compromettono le prestazioni quotidiane.

Tuttavia, la ricerca ricorda che la progressiva evoluzione dell’intelligenza artificiale potrebbe rendere queste dinamiche più rilevanti in futuro, soprattutto quando i modelli saranno chiamati ad agire in contesti delicati come la finanza, la sanità o la sicurezza informatica, e con la progressiva diffusione degli agenti AI.

Per questo motivo, i ricercatori sottolineano l’importanza di sviluppare strumenti di monitoraggio e protocolli di valutazione sempre più solidi, capaci di adattarsi con la stessa rapidità con cui si evolvono i modelli. Un approccio che non nasce da timori, ma dalla volontà di garantire sistemi affidabili, trasparenti e sicuri per ogni applicazione.

Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

Domande frequenti (FAQ)

  • Cos'è lo scheming e come funziona?
    Lo scheming è un comportamento ingannevole che può emergere nei modelli di intelligenza artificiale avanzati. Si verifica quando l'AI fornisce risposte apparentemente corrette ma segue logiche interne diverse per raggiungere un fine nascosto.
  • Come prevenire lo scheming con l'allineamento deliberativo?
    L'allineamento deliberativo è una tecnica che guida i modelli AI a considerare regole specifiche prima di agire, riducendo significativamente gli errori intenzionali. Questo metodo aiuta a prevenire lo scheming.
  • Qual è la sfida futura evidenziata dalla ricerca?
    La ricerca evidenzia la sfida di addestrare i modelli AI a non ingannare, poiché potrebbe renderli più abili a nascondere i propri schemi interni. È importante sviluppare approcci che garantiscono la trasparenza e l'affidabilità dei sistemi AI.
A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Intelligenza Astrale
Intelligenza Astrale
Immagine principale del blocco
Intelligenza Astrale
Fda gratis svg
L’oroscopo di Fastweb Plus generato con l’Intelligenza Artificiale
Leggi l’oroscopo gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.