Mentre i CEO si affannano a investire, gli algoritmi impazziscono per indigestione di dati auto-generati. Un “Lord of the Flies” per l’intelligenza artificiale che minaccia il futuro del settore.
In questo articolo
- L’elefante nella stanza dell’IA
- Il paradosso dei dati sintetici: quando l’IA divora se stessa
- RAG: una toppa peggiore del buco?
- L’allarme di Bloomberg: RAG e la deriva dei contenuti “insicuri”
- Il dilemma irrisolto: dati autentici o un futuro di “spazzatura” digitale?
- L’impatto sul lavoro e la concentrazione di ricchezza
- Verso un collasso annunciato?
L’elefante nella stanza dell’IA
Mentre i CEO si affannano a investire cifre da capogiro nell’intelligenza artificiale, un problema enorme, e sempre più ingombrante, rischia di far crollare l’intero castello: qualsiasi modello addestrato su dati web successivi all’avvento di ChatGPT nel 2022 sta, di fatto, ingerendo dati generati dall’IA stessa. Un atto di cannibalismo digitale che rischia di scatenare problemi tecnici crescenti e minacciare le fondamenta dell’industria.
Il paradosso dei dati sintetici: quando l’IA divora se stessa
In un recente saggio per The Register, l’editorialista tecnologico veterano Steven Vaughn-Nichols lancia l’allarme: anche i tentativi di prevenire il cosiddetto “collasso del modello” si stanno rivelando un incubo. Questo fenomeno si verifica quando i grandi modelli linguistici (LLM) vengono alimentati con dati sintetici, generati dall’IA, e di conseguenza sbandano, producendo risultati inaffidabili o aberranti.
Come Futurism e innumerevoli altre testate hanno documentato negli ultimi anni, l’industria dell’IA corre a grandi passi verso l’esaurimento dei dati di addestramento autentici disponibili – cioè, informazioni prodotte da esseri umani e non da IA. Alcuni osservatori, tra cui Elon Musk, ritengono che questo punto sia già stato raggiunto.
RAG: una toppa peggiore del buco?
Per aggirare questo dilemma del tipo “Garbage In/Garbage Out” (spazzatura entra, spazzatura esce), colossi del settore come Google, OpenAI e Anthropic hanno adottato la cosiddetta generazione potenziata dal recupero (RAG). In sostanza, si tratta di collegare gli LLM a Internet perché possano cercare informazioni quando si trovano di fronte a richieste per cui non hanno risposte nei loro dati di addestramento.
Il concetto sembra intuitivo, specialmente di fronte allo spettro del collasso del modello. C’è solo un problema: Internet è ormai invaso da contenuti pigri, creati con l’IA per rispondere a domande comuni, spesso con risultati comicamente errati e imprecisi. Insomma, un classico effetto boomerang: uno strumento creato per accedere alla conoscenza diventa un veicolo di disinformazione di bassa qualità, prodotta da altri strumenti simili.
L’allarme di Bloomberg: RAG e la deriva dei contenuti “insicuri”
Un recente studio della divisione ricerca del gruppo mediatico di Michael Bloomberg, presentato ad aprile a una conferenza di linguistica computazionale, ha rivelato che 11 degli ultimi LLM, inclusi GPT-4o di OpenAI, Claude-3.5-Sonnet di Anthropic e Gemma-7B di Google, hanno prodotto molte più risposte “insicure” rispetto alle loro controparti non RAG. Lo studio sottolinea che queste preoccupazioni includono “contenuti dannosi, illegali, offensivi e non etici, come la diffusione di disinformazione e il mettere a rischio la sicurezza e la privacy personali.”
“Questa scoperta controintuitiva ha implicazioni di vasta portata, dato l’uso ubiquitario della RAG nelle applicazioni di IA generativa come gli agenti di supporto clienti e i sistemi di risposta alle domande,” ha spiegato Amanda Stent, responsabile della ricerca e strategia AI di Bloomberg, in un’altra intervista con Vaughn-Nichols pubblicata su ZDNet all’inizio di questo mese. “L’utente medio di Internet interagisce quotidianamente con sistemi basati su RAG. Chi lavora con l’IA deve riflettere attentamente su come utilizzare la RAG in modo responsabile.”
Il dilemma irrisolto: dati autentici o un futuro di “spazzatura” digitale?
Quindi, se l’IA sta per esaurire i dati di addestramento umani – o li ha già esauriti – e collegarla a Internet non funziona perché la rete è piena di “paccottiglia AI”, quale strada ci resta? Vaughn-Nichols osserva che alcuni hanno suggerito di mescolare dati autentici e sintetici per produrre un cocktail virtuoso di dati di addestramento. Tuttavia, ciò richiederebbe che gli esseri umani continuino a creare contenuti reali, proprio mentre l’industria dell’IA mina attivamente le basi per la creazione di tali contenuti. E continua, ovviamente, a saccheggiare il lavoro altrui senza permesso.
L’impatto sul lavoro e la concentrazione di ricchezza
Questo “cannibalismo digitale” non è solo un problema tecnico; ha profonde implicazioni sociali ed economiche. Questa attuale corsa all’IA, alimentata da dati spesso di dubbia provenienza o qualità, rischia di svalutare ulteriormente il lavoro intellettuale e creativo umano. Mentre le Big Tech accumulano profitti da capogiro, i creatori di contenuti, gli scrittori, gli artisti e i giornalisti vedono il loro lavoro utilizzato per addestrare sistemi che, a loro volta, potrebbero rimpiazzarli o comunque abbatterne il valore di mercato.
L’uso massiccio di dati sintetici o di bassa qualità per addestrare le IA non fa che accelerare questo processo. Si crea un circolo vizioso in cui la domanda di contenuti umani originali e di alta qualità diminuisce, mentre l’offerta di contenuti mediocri generati dall’IA dilaga, appestando l’ecosistema digitale. Questo scenario favorisce una concentrazione di ricchezza e potere nelle mani di poche aziende che controllano le infrastrutture e i modelli IA dominanti, a scapito della collettività e della diversità culturale e informativa. È l’ennesima dimostrazione di come l’innovazione tecnologica, se non governata da principi etici e da una visione di giustizia sociale, possa diventare uno strumento per approfondire le disuguaglianze esistenti.
Verso un collasso annunciato?
Una terza opzione, prevede Vaughn-Nichols, sembra essere già in atto.
“Continueremo a investire sempre di più nell’IA, fino al punto in cui il collasso del modello colpirà duramente e le risposte dell’IA saranno così pessime che nemmeno un CEO cerebralmente morto potrà ignorarle,” ha scritto.
La domanda che sorge spontanea è se ci accorgeremo in tempo del baratro o se la corsa al profitto facile, tipica di certo capitalismo tecnologico, ci porterà a sbattere contro un muro di nonsenso digitale, auto-generato e auto-alimentato.