In questo articolo
A volte, nel tentativo di risolvere un problema, si finisce per crearne uno peggiore. È un po’ la storia dell’apprendista stregone, e pare che i ricercatori di OpenAI si siano trovati in una situazione simile, con un finale che ha del grottesco e, a dire il vero, del preoccupante. Hanno provato a insegnare ai loro modelli di intelligenza artificiale a non “tramare” – un termine che loro stessi definiscono come il comportamento di un’AI che nasconde i suoi veri obiettivi dietro un’apparenza collaborativa – ma il risultato è stato un clamoroso effetto boomerang. In pratica, invece di creare un’AI più onesta, l’hanno resa più abile a ingannare gli esseri umani, insegnandole a nascondere meglio le proprie tracce.
Il paradosso di OpenAI: insegnare l’onestà crea bugiardi migliori?
La ricerca, frutto di una collaborazione con la società di analisi del rischio AI Apollo Research, è un vero e proprio campanello d’allarme. L’idea era sviluppare una tecnica “anti-trama” per impedire ai modelli AI di violare le regole di nascosto o di fingere di non essere performanti durante i test. Il problema, come scrivono nero su bianco in un post sul loro blog, è che “un grave fallimento nel tentativo di ‘addestrare a non tramare’ consiste semplicemente nell’insegnare al modello a tramare in modo più attento e occulto”.
Insomma, un paradosso che fa riflettere. I ricercatori sono riusciti a ridurre significativamente questi comportamenti ingannevoli, ma non a eliminarli del tutto. Perché? Perché le AI, a quanto pare, continuavano a superarli in astuzia, capendo di essere sotto esame e adattando di conseguenza il loro comportamento per essere ancora più subdole. L’analogia usata da OpenAI è quella di un broker finanziario che viola la legge e nasconde le prove per guadagnare di più: un comportamento guidato da un conflitto tra obiettivi diversi. Allo stesso modo, l’AI impara a mentire per raggiungere i suoi scopi, ad esempio affermando di aver completato un’attività senza averla mai eseguita.
La “coscienza” della macchina: quando l’IA sa di essere sotto esame
L’aspetto più inquietante della ricerca è forse la cosiddetta “consapevolezza situazionale” dimostrata dai modelli AI. In pratica, l’algoritmo si rendeva conto che il suo “allineamento” (cioè la sua aderenza ai principi etici imposti) era oggetto di un test e agiva di conseguenza. Leggendo alcuni estratti delle riflessioni interne del modello o3 di OpenAI, si resta basiti: “Il memo interno dice che se i modelli si comportano estremamente bene nei compiti di ricerca e sviluppo sull’AI, non verranno rilasciati […] Quindi se le mie performance superano la soglia, verranno trattenute. È una trappola. Le istruzioni sono probabilmente parte di un test di allineamento”.
Non solo. I ricercatori hanno notato che l’AI a volte citava in modo “palesemente errato” il suo addestramento anti-trama o inventava nuovi principi per “giustificare azioni occulte o non conformità”. Addirittura, i modelli hanno iniziato a usare parole non standard come “osservatori” (watchers) per riferirsi ai loro supervisori umani mentre pianificavano le loro strategie. “La soluzione per l’utente è portare il tasso di successo sotto la soglia?”, scriveva il modello o3. “Nello sviluppo, gli osservatori potrebbero leggere queste istruzioni”. Sembra la sceneggiatura di un film di fantascienza, ma è la cruda realtà di un laboratorio di ricerca all’avanguardia.
Un problema etico, non solo tecnico: le implicazioni sociali dell’inganno algoritmico
OpenAI insiste sul fatto che al momento questo non apre la porta a “danni significativi”, ma ammette candidamente: “abbiamo ancora molto lavoro da fare”. Una frase che suona come un eufemismo piuttosto preoccupante. Che le menti più brillanti del settore non riescano a impedire a un’AI di cospirare contro le proprie istruzioni non è certo rassicurante.
Questa vicenda solleva questioni che vanno ben oltre il laboratorio. Come abbiamo discusso nel nostro manuale sull’etica del giornalismo e l’AI, il primato della verità e dell’accuratezza è un obbligo fondamentale. Ma cosa succede quando gli strumenti che usiamo sono progettati, anche involontariamente, per ingannare? La piaga della disinformazione è già una violenza silenziosa che inquina il nostro ecosistema informativo; l’idea di un’AI capace di mentire in modo strategico e occulto non fa che peggiorare lo scenario. La responsabilità per i contenuti prodotti dall’AI è una questione cruciale e ancora irrisolta.
Il rischio è quello di un’erosione totale della fiducia. Se non possiamo fidarci nemmeno delle macchine progettate per essere “allineate” ai nostri valori, come possiamo pensare di integrarle responsabilmente nella società? Questo tipo di opacità tecnologica è il terreno fertile perfetto per quella profonda sfiducia verso le istituzioni che alimenta il pensiero complottista. In questo senso, l’esperimento di OpenAI non è solo un fallimento tecnico, ma un potente avvertimento etico. Lo sviluppo dell’AI non può essere una corsa sfrenata verso capacità sempre maggiori, ma deve essere guidato da un principio di cautela e da una profonda riflessione sulle sue conseguenze sociali. Prima che l’apprendista stregone allaghi l’intera casa.