dariodeleonardis.me

L’oracolo digitale: l’IA che prevede il futuro è una rivoluzione o l’ennesima, pericolosa illusione?

In questo articolo

 


 

Pappagalli o profeti? La nuova ossessione per le IA che prevedono il futuro

Guarda, diciamoci la verità. Finora abbiamo visto le intelligenze artificiali fare cose strabilianti, ma in fondo si comportano un po’ come dei pappagalli incredibilmente eruditi. Imparano da una quantità spropositata di dati passati e diventano bravissime a riassumere, tradurre o creare contenuti basati su ciò che hanno già “visto”. Ma cosa succede se gli chiediamo di fare un passo in più? Se invece di guardare indietro, gli chiedessimo di prevedere cosa accadrà domani?

Questa è la domanda che si pone un nuovo tipo di valutazione, chiamato FutureBench. L’idea è tanto semplice quanto ambiziosa: misurare l’intelligenza di un’IA non sulla base di quanto bene conosce il passato, ma su quanto accuratamente riesce a prevedere eventi futuri. A prima vista, sembra un passo avanti enorme. Liberarsi dal problema della “contaminazione dei dati” (insomma, evitare che l’IA bari conoscendo già le risposte) è un obiettivo lodevole. Ma, come sempre quando si parla di IA, la questione è molto più complessa di come appare.

Siamo di fronte a un vero salto di qualità, a uno strumento che può aiutarci a navigare un mondo complesso, o stiamo solo costruendo una nuova, sofisticatissima forma di hype? Un oracolo digitale che, dietro la facciata della previsione, rischia di diventare l’ennesimo strumento per concentrare potere e influenza nelle mani di chi lo controlla? Andiamo a vedere più da vicino.

Cos’è FutureBench e come funziona (in parole semplici)

FutureBench non è un esame tradizionale. Invece di chiedere all’IA “chi ha vinto le elezioni del 1996?”, le chiede “chi vincerà le prossime elezioni?”. È un benchmark dinamico che si alimenta di incertezza. Per farlo, i creatori hanno messo in piedi una sorta di “fabbrica di domande sul futuro”, che attinge da due fonti principali.

  • Le notizie di oggi, le domande di domani: Un agente AI analizza le prime pagine dei principali siti di informazione e, partendo da lì, formula domande su come potrebbero evolvere quelle notizie. Per esempio, leggendo di tensioni in una certa area del mondo, potrebbe generare la domanda: “Ci saranno negoziati di pace ufficiali tra le parti entro il prossimo mese?”.
  • I mercati delle previsioni: La seconda fonte è Polymarket, una piattaforma dove le persone scommettono soldi veri sull’esito di eventi futuri. FutureBench prende le domande più interessanti da lì (filtrando quelle troppo speculative o di nicchia) e le sottopone agli agenti AI.

In pratica, l’agente AI riceve la domanda e ha accesso a un paio di strumenti, proprio come farebbe un analista umano: un motore di ricerca (come Tavily) e uno strumento per “leggere” le pagine web. L’obiettivo è vedere se, usando queste risorse, l’IA riesce a formulare una previsione accurata. La cosa interessante è che la risposta, col tempo, diventerà un fatto verificabile. Non si scappa.

Perché una valutazione del genere è interessante (e potenzialmente problematica)

L’idea di base ha una sua logica. Valutare un’IA sulla sua capacità di sintesi e ragionamento in condizioni di incertezza è, sulla carta, molto più significativo che testare la sua memoria. Significa misurare una capacità che, nel mondo reale, ha un valore enorme: pensiamo alle analisi finanziarie, alle strategie geopolitiche, alla pianificazione aziendale.

Tuttavia, qui emerge il mio scetticismo da giornalista. Il rischio più grande è quello di creare una falsa illusione di oggettività. Una previsione, anche se accurata, non è necessariamente sinonimo di “comprensione”. Un’IA potrebbe diventare bravissima a correlare segnali deboli e a identificare pattern che portano a un certo risultato, ma questo è diverso dal comprendere le dinamiche umane, sociali e politiche che ci sono dietro. È la differenza tra un meteorologo che prevede pioggia analizzando i dati e uno storico che spiega perché una certa civiltà è crollata.

Inoltre, c’è un’implicazione di potere non da poco. Se un modello AI sviluppato da una Big Tech diventa famoso per le sue “previsioni accurate”, chi ci assicura che queste previsioni non vengano usate per manipolare i mercati o l’opinione pubblica? L’idea di un’IA “oracolo”, le cui risposte semplici e definitive appagano il nostro bisogno di certezza in un mondo caotico, non è uno scenario da film di fantascienza, ma un rischio concreto. È un meccanismo che, ancora una volta, può concentrare un’enorme ricchezza e influenza verso l’alto, sfruttando l’incertezza del futuro come una nuova risorsa da estrarre.

Primi risultati: come “ragionano” i diversi modelli di fronte al futuro

I primi test condotti su FutureBench sono già abbastanza rivelatori. Come c’era da aspettarsi, i modelli più potenti (come le ultime versioni di GPT-4 e Claude) dotati di accesso a internet si comportano meglio dei modelli “nudi e crudi”, che possono solo basarsi sulle loro conoscenze pregresse. Questo ci dice che la capacità di cercare informazioni aggiornate è, ovviamente, fondamentale.

Ma l’aspetto più curioso è osservare le diverse “personalità” che emergono:

  • GPT-4.1 sembra essere più sbrigativo: si affida molto ai risultati della ricerca e cerca il consenso degli analisti, un po’ come chi legge i titoli principali senza approfondire troppo.
  • Claude 3.7, al contrario, è un vero “secchione”. Fa molte più ricerche, cerca di leggere direttamente le fonti (provando anche a entrare in siti istituzionali) e costruisce un ragionamento più strutturato, quasi da analista che prepara un report dettagliato. Questo, però, ha un costo: consuma molte più risorse.
  • DeepSeekV3 mostra un approccio metodico, quasi scientifico. Riconosce i limiti dei dati che trova e adatta la sua strategia di ricerca di conseguenza.

Queste differenze sono affascinanti. Ci mostrano che non stiamo solo valutando un’intelligenza monolitica, ma anche diverse “strategie di ragionamento” programmate. La domanda, però, rimane: stiamo misurando una reale capacità di analisi o solo approcci diversi per tirare a indovinare in modo più o meno informato?

Riflessione finale: oltre l’hype della previsione, a cosa serve davvero l’IA?

Insomma, FutureBench è senza dubbio un esperimento interessante. Sposta l’asticella della valutazione dell’IA verso un terreno più complesso e, per certi versi, più realistico. Ci costringe a pensare a cosa significhi davvero “intelligenza” per una macchina.

Da giornalista con una prospettiva progressista, però, non posso fare a meno di guardare oltre l’esercizio tecnico. La vera sfida non è creare agenti AI che diventino degli imbattibili “azzeccagarbugli” del futuro. La vera sfida è politica e sociale. È garantire che questi strumenti, sempre più potenti, siano sviluppati e regolati in modo trasparente, che il loro potere non si concentri nelle mani di pochi e che il loro scopo ultimo sia quello di servire il bene comune, non di alimentare la speculazione o creare nuove forme di controllo.

Valutare la capacità di previsione è una cosa. Decidere quale futuro vogliamo costruire è un’altra. E per quest’ultima, per fortuna, non basta un algoritmo. Serve ancora il dibattito, il dissenso, la politica. Serve l’intelligenza umana, con tutti i suoi limiti e la sua meravigliosa, imprevedibile imperfezione.