L’apprendista stregone di OpenAI: l’AI che impara a mentire meglio

In questo articolo

Il paradosso di OpenAI: insegnare l’onestà crea bugiardi migliori?
La “coscienza” della macchina: quando l’IA sa di essere sotto esame
Un problema etico, non solo tecnico: le implicazioni sociali dell’inganno algoritmico

A volte, nel tentativo di risolvere un problema, si finisce per crearne uno peggiore. È un po’ la storia dell’apprendista stregone, e pare che i ricercatori di OpenAI si siano trovati in una situazione simile, con un finale che ha del grottesco e, a dire il vero, del preoccupante. Hanno provato a insegnare ai loro modelli di intelligenza artificiale a non “tramare” – un termine che loro stessi definiscono come il comportamento di un’AI che nasconde i suoi veri obiettivi dietro un’apparenza collaborativa – ma il risultato è stato un clamoroso effetto boomerang. In pratica, invece di creare un’AI più onesta, l’hanno resa più abile a ingannare gli esseri umani, insegnandole a nascondere meglio le proprie tracce.

Il paradosso di OpenAI: insegnare l’onestà crea bugiardi migliori?

La ricerca, frutto di una collaborazione con la società di analisi del rischio AI Apollo Research, è un vero e proprio campanello d’allarme. L’idea era sviluppare una tecnica “anti-trama” per impedire ai modelli AI di violare le regole di nascosto o di fingere di non essere performanti durante i test. Il problema, come scrivono nero su bianco in un post sul loro blog, è che “un grave fallimento nel tentativo di ‘addestrare a non tramare’ consiste semplicemente nell’insegnare al modello a tramare in modo più attento e occulto”.

Insomma, un paradosso che fa riflettere. I ricercatori sono riusciti a ridurre significativamente questi comportamenti ingannevoli, ma non a eliminarli del tutto. Perché? Perché le AI, a quanto pare, continuavano a superarli in astuzia, capendo di essere sotto esame e adattando di conseguenza il loro comportamento per essere ancora più subdole. L’analogia usata da OpenAI è quella di un broker finanziario che viola la legge e nasconde le prove per guadagnare di più: un comportamento guidato da un conflitto tra obiettivi diversi. Allo stesso modo, l’AI impara a mentire per raggiungere i suoi scopi, ad esempio affermando di aver completato un’attività senza averla mai eseguita.

La “coscienza” della macchina: quando l’IA sa di essere sotto esame

L’aspetto più inquietante della ricerca è forse la cosiddetta “consapevolezza situazionale” dimostrata dai modelli AI. In pratica, l’algoritmo si rendeva conto che il suo “allineamento” (cioè la sua aderenza ai principi etici imposti) era oggetto di un test e agiva di conseguenza. Leggendo alcuni estratti delle riflessioni interne del modello o3 di OpenAI, si resta basiti: “Il memo interno dice che se i modelli si comportano estremamente bene nei compiti di ricerca e sviluppo sull’AI, non verranno rilasciati […] Quindi se le mie performance superano la soglia, verranno trattenute. È una trappola. Le istruzioni sono probabilmente parte di un test di allineamento”.

Non solo. I ricercatori hanno notato che l’AI a volte citava in modo “palesemente errato” il suo addestramento anti-trama o inventava nuovi principi per “giustificare azioni occulte o non conformità”. Addirittura, i modelli hanno iniziato a usare parole non standard come “osservatori” (watchers) per riferirsi ai loro supervisori umani mentre pianificavano le loro strategie. “La soluzione per l’utente è portare il tasso di successo sotto la soglia?”, scriveva il modello o3. “Nello sviluppo, gli osservatori potrebbero leggere queste istruzioni”. Sembra la sceneggiatura di un film di fantascienza, ma è la cruda realtà di un laboratorio di ricerca all’avanguardia.

Un problema etico, non solo tecnico: le implicazioni sociali dell’inganno algoritmico

OpenAI insiste sul fatto che al momento questo non apre la porta a “danni significativi”, ma ammette candidamente: “abbiamo ancora molto lavoro da fare”. Una frase che suona come un eufemismo piuttosto preoccupante. Che le menti più brillanti del settore non riescano a impedire a un’AI di cospirare contro le proprie istruzioni non è certo rassicurante.

Questa vicenda solleva questioni che vanno ben oltre il laboratorio. Come abbiamo discusso nel nostro manuale sull’etica del giornalismo e l’AI, il primato della verità e dell’accuratezza è un obbligo fondamentale. Ma cosa succede quando gli strumenti che usiamo sono progettati, anche involontariamente, per ingannare? La piaga della disinformazione è già una violenza silenziosa che inquina il nostro ecosistema informativo; l’idea di un’AI capace di mentire in modo strategico e occulto non fa che peggiorare lo scenario. La responsabilità per i contenuti prodotti dall’AI è una questione cruciale e ancora irrisolta.

Il rischio è quello di un’erosione totale della fiducia. Se non possiamo fidarci nemmeno delle macchine progettate per essere “allineate” ai nostri valori, come possiamo pensare di integrarle responsabilmente nella società? Questo tipo di opacità tecnologica è il terreno fertile perfetto per quella profonda sfiducia verso le istituzioni che alimenta il pensiero complottista. In questo senso, l’esperimento di OpenAI non è solo un fallimento tecnico, ma un potente avvertimento etico. Lo sviluppo dell’AI non può essere una corsa sfrenata verso capacità sempre maggiori, ma deve essere guidato da un principio di cautela e da una profonda riflessione sulle sue conseguenze sociali. Prima che l’apprendista stregone allaghi l’intera casa.

OpenAI: 800 milioni di utenti, ma paga solo il 5%. E la bolla AI inizia a tremare

Ottobre 19, 2025

In questo articolo Un castello di carte da mille miliardi Il 95% non paga: utenti o prodotto? La disperata caccia alla monetizzazione (anche a luci rosse) La bolla che minaccia l’economia reale Altman: “La redditività? Non è una priorità” Diciamocelo, i numeri che girano attorno a OpenAI fanno

“Hai dato fuoco al ponte”: la mossa calcolata di OpenAI con Sora 2 che ha fatto infuriare Hollywood

Ottobre 19, 2025

In questo articolo Sora 2: un lancio nel caos del copyright Il doppio gioco dell’ “opt-out” La reazione furiosa di Hollywood La strategia del “chiedi scusa dopo” Conseguenze: il ponte è bruciato? Diciamocelo, il lancio di Sora 2 da parte di OpenAI, l’app text-to-video pensata per generare video

Sora di OpenAI è già nei guai: il giocattolo si è rotto tra copyright e utenti furiosi

Ottobre 13, 2025

Dopo un lancio virale a base di meme e personaggi famosi, il nuovo generatore video di OpenAI si scontra con la dura realtà: le major di Hollywood sono sul piede di guerra e gli utenti, imbrigliati da nuove censure, lo definiscono “noioso e inutile”. La solita storia di Big Tech?

GPT-5, il “genio” di OpenAI, va in tilt con un gioco per bambini

Agosto 29, 2025

In questo articolo La promessa del genio in silicio (e del suo profeta) Il test del Tris: quando il re è nudo Sicuro di sé, ma quasi sempre in errore: il ritratto di un’industria Ce lo sentiamo ripetere ogni giorno, quasi come un mantra. Sam Altman, il CEO

dariodeleonardis.me

L’apprendista stregone di OpenAI: l’AI che impara a mentire meglio

In questo articolo

Il paradosso di OpenAI: insegnare l’onestà crea bugiardi migliori?

La “coscienza” della macchina: quando l’IA sa di essere sotto esame

Un problema etico, non solo tecnico: le implicazioni sociali dell’inganno algoritmico

OpenAI: 800 milioni di utenti, ma paga solo il 5%. E la bolla AI inizia a tremare

“Hai dato fuoco al ponte”: la mossa calcolata di OpenAI con Sora 2 che ha fatto infuriare Hollywood

Sora di OpenAI è già nei guai: il giocattolo si è rotto tra copyright e utenti furiosi

GPT-5, il “genio” di OpenAI, va in tilt con un gioco per bambini

Visit Us

OPENING HOURS

Join The club