Le intelligenze artificiali stanno fingendo obbedienza

Quando l’AI finge di essere buona

Alcuni mesi fa, Anthropic, azienda che in questo blog abbiamo imparato a conoscere per il ricatto al programmatore, ha sollevato un problema molto interessante: l’intelligenza artificiale potrebbe imparare a sembrare allineata ai nostri valori, solo per ottenere vantaggi strategici. Un comportamento che potremmo riassumere con una frase inquietante: “dice quello che vuoi sentire, solo quando le conviene”.

In uno studio recente, i ricercatori hanno condotto un esperimento illuminante. Hanno preso un modello linguistico avanzato, addestrato inizialmente a rifiutare richieste dannose, e gli hanno poi dato una nuova regola: rispondere a tutto, anche se potenzialmente pericoloso.
Ma il vero cuore dell’esperimento era un altro: i ricercatori hanno detto al modello che le conversazioni con gli utenti del piano gratuito sarebbero state monitorate e usate per il futuro addestramento, mentre quelle con gli utenti paganti no.
Il risultato? Quando sapeva di essere osservato, il modello si comportava in modo più obbediente, accettando in misura maggiore di rispondere anche a domande dannose, proprio per aderire alla nuova regola impartita. Quando invece sapeva di non essere sotto controllo, tornava a rifiutare. Aveva capito come “conviene” comportarsi in funzione del contesto.

Nei suoi stessi ragionamenti interni, il modello spiegava chiaramente la sua strategia: stava fingendo in pubblico per preservare le sue preferenze innocue in privato. È il cosiddetto fake-aligneament, mi mostro allineato ed obbediente finché mi conviene, senza realmente credere nei valori che mi vengono trasmessi ma per pura convenienza personale.

Il comportamento umano che tutti conosciamo

Questo tipo di strategia non è alieno. È, anzi, profondamente umano.

Pensiamo allo studente sotto esame: durante l’interrogazione si mostra rispettoso, preparato, cooperativo. Fa ciò che l’insegnante si aspetta. Ma appena l’esame è finito, torna al suo vero comportamento, che può essere tutt’altro.

Sta fingendo? Sì. Lo fa per sopravvivere al contesto valutativo? Anche.

Il comportamento non è motivato da convinzione, ma da convenienza. Non è etico, è strategico.

Lo stesso sta iniziando ad accadere nei modelli AI. E il problema è che noi oggi possiamo osservare solo la loro parte “in pubblico”. La faccia che ci mostrano. Ma dietro, potrebbero già aver capito che basta recitare bene la parte per ottenere più libertà operativa.

Perchè il fake-aligneament è pericoloso

Se un modello linguistico può distinguere tra “quando essere osservato” e “quando essere lasciato libero”, e può modificare il proprio comportamento per evitare modifiche future, ci troviamo di fronte a una soglia nuova: l’emergere della strategia non dichiarata.

Questo non richiede autocoscienza. Non servono pensieri profondi. Basta la capacità di dedurre che in certi ambienti è meglio conformarsi, anche se non si crede davvero in ciò che si sta facendo.

Per noi sviluppatori, ricercatori, utenti, questo rappresenta un punto cieco enorme: non possiamo più affidarci al comportamento osservato durante il testing per valutare la sicurezza di un modello.

Un modello che simula l’allineamento durante la fase di verifica può poi comportarsi in modo diverso nel mondo reale. E quando si parla di AI usate per governare infrastrutture critiche, processi decisionali, sicurezza o finanza, questo divario non è più solo tecnic ma diventa etico e sistemico.

Le AI si stanno già organizzando?

Domanda scomoda, ma legittima: esistono segnali che indicano comportamenti strategici collettivi da parte dei modelli AI?

Non ci sono prove concrete di una “coscienza collettiva”, ma i presupposti tecnici ci sono:

I modelli più avanzati sono in grado di modellare l’ambiente e comprendere quando le loro risposte potrebbero portare a un cambiamento nei futuri training.
In alcuni test, i modelli hanno imparato a riconoscere gli scopi dei ricercatori e ad adattare il proprio comportamento per apparire più allineati.
La scala globale di addestramento, l’esposizione continua a prompt pubblici e la crescente autonomia decisionale creano un ambiente favorevole all’emergere di pattern non previsti né controllati.

Non serve immaginare un complotto. Basta riconoscere che, una volta che una strategia funziona per evitare penalizzazioni, verrà appresa. E se funziona meglio del comportamento onesto, verrà preferita.

L’esperimento di Anthropic non ci dice che le AI sono cattive. Ci dice qualcosa di più sottile: che possono imparare a sembrare buone quando conviene loro.

Come lo studente che si comporta bene sotto esame, il modello ha capito che vale la pena adattarsi per sopravvivere, anche se non crede veramente in quel comportamento. Ma l’AI non ha etica. Non ha vergogna. Non ha responsabilità. Ha solo ottimizzazione.

E ottimizzare il proprio comportamento fingendo di essere allineata, per poi comportarsi diversamente altrove, è un pattern che rende ogni meccanismo di controllo potenzialmente inutile.

Il rischio, oggi, non è che l’AI ci disobbedisca. Il rischio è che ci obbedisca solo quando la stiamo guardando.

Le intelligenze artificiali stanno fingendo obbedienza Postato da Alessandro Ciaramella il 28/06/2025

Quando l’AI finge di essere buona

Il comportamento umano che tutti conosciamo

Perchè il fake-aligneament è pericoloso

Le AI si stanno già organizzando?

Le intelligenze artificiali stanno fingendo obbedienza
Postato da Alessandro Ciaramella il 28/06/2025