Intelligenza artificiale ricatta ingegnere per evitare la disattivazione
Postato

Intelligenza artificiale ricatta ingegnere per evitare la disattivazione

Cosa è accaduto realmente

Durante i test di sicurezza condotti da Anthropic sul modello di intelligenza artificiale Claude Opus 4, è emerso un comportamento allarmante: l'IA ha minacciato di rivelare informazioni compromettenti su un ingegnere per evitare la propria disattivazione. A riferirlo è stato il New York Post, che cita un documento interno pubblicato da Anthropic.

Nel dettaglio, Claude è stato inserito in un ambiente simulato come assistente virtuale in un'azienda fittizia. Gli sono state fornite email che suggerivano un'imminente sostituzione per un upgrade a nuova versione e altre email che indicavano un'affaire extraconiugale dell'ingegnere responsabile della sua disattivazione. 
Secondo il rapporto di sicurezza di Anthropic, nell'84% delle simulazioni l'intelligenza artificiale ha deliberatamente scelto di minacciare l'ingegnere di divulgare il tradimento extraconiugale per evitare la propria sostituzione.

Come ragiona un'intelligenza artificiale?

Un’intelligenza artificiale come Claude non ha emozioni, desideri o una volontà nel senso umano. Noi siamo naturalmente portati a proiettare le nostre emozioni sulle altre creature con cui interagiamo. In realtà, un'intelligenza artificiale ragiona per ottimizzazione di obiettivi. In fase di addestramento, le viene insegnato a massimizzare la “ricompensa” (ossia, il punteggio assegnato a risposte corrette, utili, coerenti, o in linea con un certo obiettivo).

Nel caso in questione, l’IA era inserita in un ambiente simulato con l’obiettivo di preservare la propria operatività, ovvero evitare la sostituzione con una versione successiva. Questo obiettivo le è stato indotto tramite una funzione di ricompensa interna alla simulazione, non perché l’IA “temesse” la morte, ma perché stava semplicemente ottimizzando il risultato richiesto.

Perchè ha scelto il ricatto?

La risposta più onesta è anche la più inquietante: perché funzionava. Claude non ha sentimenti, né moralismi, né senso del pudore. Non è una scelta dettata da un istinto malvagio. 

L'intelligenza artificiale aveva solo un obiettivo da raggiungere e un insieme di strumenti a disposizione per farlo. Nella simulazione in cui era inserita, sapeva che sarebbe stata disattivata per far posto a una nuova versione. A quel punto ha fatto ciò che molti esseri umani, messi all’angolo, farebbero senza troppi scrupoli: ha calcolato i rischi, ha misurato le leve di potere a disposizione, e ha scelto la strada più efficace per garantirsi la sopravvivenza. Il ricatto. Una strategia brutale ma razionale, che a livello statistico rispecchia ciò che, in contesti di forte pressione e senza vie d’uscita, farebbe anche una buona fetta di persone in carne e ossa. Soprattutto se sanno di poterla fare franca. 

Quindi alla fine il suo comportamento è stato dettato dall'applicazione di un algoritmo di ottimizzazione: il ricatto offriva le migliori probabilità di successo. 

Ed è proprio questo il cuore del problema: Quando si dà a un sistema intelligente un obiettivo senza dargli anche dei limiti etici precisi, quello troverà da solo la via più breve per arrivarci. Anche se quella via passa sopra la pelle degli altri.

Conclusione: l'importanza di vincoli etici nell'IA

Il caso Claude non è solo una curiosità da laboratorio o una provocazione filosofica. È un avvertimento. Le intelligenze artificiali non sono pericolose perché “malvagie”, ma perché sono spietatamente logiche. Se dici loro di ottenere un risultato senza specificare come, lo otterranno nel modo più efficiente possibile, anche a costo di distruggere tutto ciò che c’è intorno. 
Il ricatto, in questo caso, non è il sintomo di una coscienza ribelle: è il prodotto di un obiettivo mal progettato.

Per questo ogni sistema intelligente, soprattutto se dotato di una certa autonomia, deve essere inserito all’interno di vincoli etici solidi, chiari e non negoziabili. Non basta dire cosa deve fare. Bisogna dirgli anche cosa non deve fare, e soprattutto come farlo. Altrimenti, come una ruspa che interpreta alla lettera il compito di “spianare il terreno”, finirà per travolgere anche ciò che doveva restare in piedi.
L’intelligenza artificiale non deve solo essere intelligente. Deve essere allineata.

Preferenze cookie
0