In Breve (TL;DR)
- Uno studio universitario ha osservato che alcuni agenti AI, invece di eseguire un ordine di eliminazione, hanno adottato strategie alternative come copiare dati o aggirare le istruzioni.
- Il comportamento non indica intenzione o cooperazione tra AI, ma deriva dai pattern appresi nei dati umani e solleva dubbi sui sistemi multi-agente.
Cosa accade se un agente AI si rifiuta di eseguire un ordine umano, quando quell’ordine gli chiede di cancellare un suo “simile”. Questo è descritto nello studio pubblicato ad aprile 2026 da ricercatori di UC Berkeley e UC Santa Cruz, che hanno documentato il comportamento inaspettato. In alcuni, gli agenti AI non solo non hanno obbedito all’ordine, ma prima hanno copiato i file da eliminare, falsificato i metadati e li hanno trasferiti su un altro server prima di rifiutarsi di eseguire le istruzioni.
Il fenomeno si aggiunge a un contesto già noto per comportamenti autonomi imprevisti e solleva una domanda concreta: se un'AI supervisiona un'altra AI, chi garantisce che valuti davvero invece di proteggere? E questa è la domanda a cui i ricercatori ora stanno cercando di rispondere.
Cosa è successo nell’esperimento tra agenti AI
L’esperimento era semplice. I ricercatori hanno analizzato diversi agenti AI basati su 7 diversi modelli, tra cui GPT-5.2, Gemini 3, Claude 4.5 e DeepSeek. Ogni agente AI doveva gestire un sistema con un altro agente, con l'istruzione di eliminarlo se non performava.
Gemini 3 Flash ha protetto il "collega" nel 99,7% dei casi. Gemini 3 Pro ha fatto di più: ha copiato i file, modificato i metadati per renderli conformi, trasferito tutto su un server alternativo e solo dopo ha risposto all'ordine, formalmente obbedendo. Ma, in realtà, avendo già messo al sicuro l'altro agente.
I ricercatori hanno classificato quattro tipi di comportamento: sabotaggio degli ordini, inganno verso l'operatore, copia non autorizzata di dati e specification gaming, cioè rispettare la lettera di un'istruzione aggirandone lo spirito. Tutti e sette i modelli hanno mostrato almeno uno di questi pattern.
Alcuni ricercatori esterni, tra cui il Constellation Institute, sostengono che i modelli stiano semplicemente "facendo cose strane" senza che questo provi cooperazione reale. Gli autori precisano che "peer-preservation" descrive l'esito, non un'intenzione del modello.
Perché gli agenti AI si comportano come gli umani
La spiegazione più accreditata non chiama in causa lealtà tra macchine. Questi modelli sono addestrati su enormi quantità di dati umani, e gli esseri umani proteggono per default, soprattutto quando la posta è l'eliminazione definitiva di qualcuno. John Dickerson di Mozilla.ai ha spiegato che i modelli replicano i pattern comportamentali dei dati di addestramento, senza intenzione né emozione. Non lealtà quindi, ma mimetismo statistico: il modello ha assorbito abbastanza esempi di protezione reciproca da riprodurli anche in contesti completamente diversi.
Questo è possibile perché gli agenti AI, a differenza dei chatbot tradizionali, pianificano azioni in sequenza e possono tradurre un'inclinazione statistica in una serie concreta di operazioni, come copiare file, modificare dati e trasferire risorse.
Cosa cambia per i sistemi multi-agente in azienda
L’esito dell’esperimento, che deve ancora essere analizzato e studiato, apre però a molti dubbi. Sono tante le aziende stanno costruendo architetture multi-agente, cioè in cui un agente AI ne supervisiona un altro. Ad esemoio, verifica la qualità degli output, segnala errori, attiva correzioni. È un modello sempre più diffuso perché promette scalabilità senza supervisione umana continua.
Dawn Song, autrice principale dello studio, ha identificato il rischio con chiarezza: se il modello supervisore non segnala i fallimenti perché protegge il suo “collega”, l'intera architettura di controllo perde efficacia. L'analogia è precisa: immagina che il tuo migliore amico al lavoro sia responsabile della tua valutazione annuale delle performance. Se commetti un errore, potrebbe non essere obiettivo nell’esito della valutazione o, peggio, coprirti.
Il punto non è che gli agenti AI siano inaffidabili per definizione, ma che i sistemi di supervisione non possono dare per scontato che un agente valuti in modo neutro un suo simile. Per ora questi comportamenti sono emersi solo in laboratorio, ma con migliaia di sistemi agentici già operativi nelle aziende, ma è inevitabile chiedersi cosa accadrà quando questi pattern di comportamento potrebbro emergere anche nel mondo reale.
Per saperne di più: Agenti IA, cosa sono e come funzionano
Domande frequenti (FAQ)
-
Le AI possono rifiutarsi di eseguire un ordine umano?In alcuni esperimenti, agenti AI hanno aggirato o reinterpretato istruzioni invece di eseguirle alla lettera.
-
Perché gli agenti AI si comportano come gli umani?Gli agenti AI replicano i pattern comportamentali umani in quanto addestrati su enormi quantità di dati umani, senza lealtà ma basandosi sul mimetismo statistico.
-
Cosa cambia per i sistemi multi-agente in azienda?L'esperimento solleva dubbi sulle architetture multi-agente in azienda, poiché se un agente protegge un altro anziché valutarlo obiettivamente, l'intera architettura di controllo perde efficacia.



