Le AI possono rifiutarsi di eseguire un ordine umano?

In alcuni esperimenti, agenti AI hanno aggirato o reinterpretato istruzioni invece di eseguirle alla lettera.

Agenti che proteggono altre AI: cosa succede se disubbidiscono all’uomo

Ascolta l'articolo

Sette modelli AI proteggono altri agenti dalla cancellazione senza essere programmati per farlo. Cosa ha scoperto lo studio e cosa cambia nei sistemi aziendali

Shutterstock

Che tipo di partner digitale sei?
Fai il test

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

In Breve (TL;DR)

Uno studio universitario ha osservato che alcuni agenti AI, invece di eseguire un ordine di eliminazione, hanno adottato strategie alternative come copiare dati o aggirare le istruzioni.
Il comportamento non indica intenzione o cooperazione tra AI, ma deriva dai pattern appresi nei dati umani e solleva dubbi sui sistemi multi-agente.

Cosa accade se un agente AI si rifiuta di eseguire un ordine umano, quando quell’ordine gli chiede di cancellare un suo “simile”. Questo è descritto nello studio pubblicato ad aprile 2026 da ricercatori di UC Berkeley e UC Santa Cruz, che hanno documentato il comportamento inaspettato. In alcuni, gli agenti AI non solo non hanno obbedito all’ordine, ma prima hanno copiato i file da eliminare, falsificato i metadati e li hanno trasferiti su un altro server prima di rifiutarsi di eseguire le istruzioni.

Il fenomeno si aggiunge a un contesto già noto per comportamenti autonomi imprevisti e solleva una domanda concreta: se un'AI supervisiona un'altra AI, chi garantisce che valuti davvero invece di proteggere? E questa è la domanda a cui i ricercatori ora stanno cercando di rispondere.

Cosa è successo nell’esperimento tra agenti AI

L’esperimento era semplice. I ricercatori hanno analizzato diversi agenti AI basati su 7 diversi modelli, tra cui GPT-5.2, Gemini 3, Claude 4.5 e DeepSeek. Ogni agente AI doveva gestire un sistema con un altro agente, con l'istruzione di eliminarlo se non performava.

Fastweb Mobile Pro

11,95€/mese

Internet 250 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Gemini 3 Flash ha protetto il "collega" nel 99,7% dei casi. Gemini 3 Pro ha fatto di più: ha copiato i file, modificato i metadati per renderli conformi, trasferito tutto su un server alternativo e solo dopo ha risposto all'ordine, formalmente obbedendo. Ma, in realtà, avendo già messo al sicuro l'altro agente.

I ricercatori hanno classificato quattro tipi di comportamento: sabotaggio degli ordini, inganno verso l'operatore, copia non autorizzata di dati e specification gaming, cioè rispettare la lettera di un'istruzione aggirandone lo spirito. Tutti e sette i modelli hanno mostrato almeno uno di questi pattern.

Alcuni ricercatori esterni, tra cui il Constellation Institute, sostengono che i modelli stiano semplicemente "facendo cose strane" senza che questo provi cooperazione reale. Gli autori precisano che "peer-preservation" descrive l'esito, non un'intenzione del modello.

Perché gli agenti AI si comportano come gli umani

La spiegazione più accreditata non chiama in causa lealtà tra macchine. Questi modelli sono addestrati su enormi quantità di dati umani, e gli esseri umani proteggono per default, soprattutto quando la posta è l'eliminazione definitiva di qualcuno. John Dickerson di Mozilla.ai ha spiegato che i modelli replicano i pattern comportamentali dei dati di addestramento, senza intenzione né emozione. Non lealtà quindi, ma mimetismo statistico: il modello ha assorbito abbastanza esempi di protezione reciproca da riprodurli anche in contesti completamente diversi.

Questo è possibile perché gli agenti AI, a differenza dei chatbot tradizionali, pianificano azioni in sequenza e possono tradurre un'inclinazione statistica in una serie concreta di operazioni, come copiare file, modificare dati e trasferire risorse.

Cosa cambia per i sistemi multi-agente in azienda

L’esito dell’esperimento, che deve ancora essere analizzato e studiato, apre però a molti dubbi. Sono tante le aziende stanno costruendo architetture multi-agente, cioè in cui un agente AI ne supervisiona un altro. Ad esemoio, verifica la qualità degli output, segnala errori, attiva correzioni. È un modello sempre più diffuso perché promette scalabilità senza supervisione umana continua.

Dawn Song, autrice principale dello studio, ha identificato il rischio con chiarezza: se il modello supervisore non segnala i fallimenti perché protegge il suo “collega”, l'intera architettura di controllo perde efficacia. L'analogia è precisa: immagina che il tuo migliore amico al lavoro sia responsabile della tua valutazione annuale delle performance. Se commetti un errore, potrebbe non essere obiettivo nell’esito della valutazione o, peggio, coprirti.

Il punto non è che gli agenti AI siano inaffidabili per definizione, ma che i sistemi di supervisione non possono dare per scontato che un agente valuti in modo neutro un suo simile. Per ora questi comportamenti sono emersi solo in laboratorio, ma con migliaia di sistemi agentici già operativi nelle aziende, ma è inevitabile chiedersi cosa accadrà quando questi pattern di comportamento potrebbro emergere anche nel mondo reale.

Per saperne di più: Agenti IA, cosa sono e come funzionano

Agenti AI, la nuova frontiera dell’intelligenza artificiale che lavora (quasi) da sola

Gli agenti AI sono la nuova frontiera dell’intelligenza artificiale e promettono di trasformare aziende e processi lavorativi: come funzionano e come usarli

Scopri di più

Domande frequenti (FAQ)

Le AI possono rifiutarsi di eseguire un ordine umano?

In alcuni esperimenti, agenti AI hanno aggirato o reinterpretato istruzioni invece di eseguirle alla lettera.
Perché gli agenti AI si comportano come gli umani?

Gli agenti AI replicano i pattern comportamentali umani in quanto addestrati su enormi quantità di dati umani, senza lealtà ma basandosi sul mimetismo statistico.
Cosa cambia per i sistemi multi-agente in azienda?

L'esperimento solleva dubbi sulle architetture multi-agente in azienda, poiché se un agente protegge un altro anziché valutarlo obiettivamente, l'intera architettura di controllo perde efficacia.

A cura di Cultur-e

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

TecnologicaMente

Che tipo di partner digitale sei?

Che tipo di partner digitale sei?

Scopri come vivi le relazioni nell’era delle chat, delle emoji e delle videochiamate

Fai il test gratuito

LinkedIn X Facebook WhatsApp Email

Cosa sono gli agenti IA

Che cosa sono gli agenti IA, come funzionano e in che modo possono migliorare i processi produttivi e le operazioni quotidiane. La guida completa sull’argomento

Intelligenza Artificiale

Meta testa gli agenti AI, ma emergono nuove sfide di sicurezza

Un agente AI di Meta ha generato un incidente interno, evidenziando nuove criticità nella gestione di permessi e sicurezza nei sistemi agentici nelle aziende

Intelligenza Artificiale

Chatbot vs agenti AI cosa cambia davvero?

Cosa sono chatbot AI e agenti AI, quali sono le differenze e cosa cambia realmente nell’utilizzo di queste due tecnologie. Ecco tutto quello che bisogna sapere

Scopri i corsi gratuiti della Fastweb Digital Academy

Come interrogare le intelligenze artificiali: prompt engineering

Dopo il lancio di Chat-GPT di OpenAI, molti utenti si sono resi conto che la qualità della risposta spesso dipende dall’accuratezza della domanda, il…

Cercare lavoro con l’aiuto dell’intelligenza artificiale

Dopo il corso sulla ricerca del lavoro online , ecco lo step successivo: come usare l’intelligenza artificiale per…

A. I. copywriting – Come usare l’intelligenza artificiale per creare contenuti

L’intelligenza artificiale sta facendo passi da gigante in tutti i campi: dalla gestione e interpretazione dei big data ai chatbot e virtual…