Gemini 3 di Google: progresso o semplice pubblicità?

8

L’ultimo modello di intelligenza artificiale di Google, Gemini 3, sta facendo notizia con punteggi di riferimento che suggeriscono progressi significativi nelle capacità di intelligenza artificiale. Sebbene questi risultati possano rafforzare temporaneamente la fiducia nel settore, le prestazioni e l’affidabilità nel mondo reale rimangono questioni cruciali.

Punteggi benchmark e loro limiti

Google afferma che Gemini 3 mostra un “ragionamento a livello di dottorato”, citando le sue prestazioni in test come Humanity’s Last Exam, una valutazione rigorosa delle conoscenze di livello universitario in matematica, scienze e discipline umanistiche. Il modello ha ottenuto il 37,5%, superando il GPT-5 di OpenAI (26,5%). Tuttavia, gli esperti mettono in guardia dal sovrainterpretare questi punteggi. Luc Rocher dell’Università di Oxford osserva che migliorare dall’80% al 90% su un benchmark non equivale necessariamente a un salto significativo nella vera capacità di ragionamento.

I test di benchmark, che spesso si basano su formati a scelta multipla o a risposta singola, potrebbero non riflettere accuratamente le capacità di risoluzione dei problemi del mondo reale. Rocher sottolinea che medici e avvocati non valutano i clienti con domande a scelta multipla; la loro esperienza richiede una valutazione sfumata. C’è anche la preoccupazione che i modelli possano “imbrogliare” semplicemente rigurgitando informazioni dai loro dati di addestramento.

Allucinazioni e dubbi sull’affidabilità

Nonostante i progressi nei parametri di prestazione, Gemini 3 continua a mostrare un preoccupante difetto comune ai grandi modelli linguistici: inesattezze sui fatti e allucinazioni. Google lo riconosce, affermando che il modello continuerà a produrre informazioni false o fuorvianti a ritmi paragonabili ad altri principali sistemi di intelligenza artificiale. Ciò è particolarmente preoccupante perché un singolo errore significativo può erodere la fiducia nella tecnologia. Artur d’Avila Garcez della City St George’s, Università di Londra, sottolinea che l’affidabilità è fondamentale: un’allucinazione catastrofica potrebbe minare l’intero sistema.

Applicazioni del mondo reale e prospettive future

Google posiziona Gemini 3 come un miglioramento per attività come lo sviluppo di software, l’organizzazione della posta elettronica e l’analisi dei documenti. L’azienda prevede inoltre di migliorare la Ricerca Google con grafica e simulazioni generate dall’intelligenza artificiale. Tuttavia, i vantaggi più significativi potrebbero risiedere nella codifica ad agenti, ovvero nell’uso dell’intelligenza artificiale per scrivere codice in modo autonomo. Adam Mahdi dell’Università di Oxford suggerisce che Gemini 3 Pro eccellerà nei flussi di lavoro complessi piuttosto che nelle attività di conversazione quotidiana.

Il feedback iniziale degli utenti evidenzia sia gli elogi per le capacità di codifica e le capacità di ragionamento di Gemini 3, sia le segnalazioni di fallimenti nei semplici test di ragionamento visivo. La vera prova sarà l’efficacia con cui le persone integreranno il modello nei loro flussi di lavoro e se la sua affidabilità giustificherà i massicci investimenti nell’infrastruttura AI.

La misura definitiva del successo di Gemini 3 e modelli IA simili non sono solo i punteggi di riferimento, ma il loro valore pratico e la loro affidabilità nelle applicazioni del mondo reale.

La corsa agli armamenti dell’intelligenza artificiale continua, ma finché le allucinazioni non verranno affrontate in modo affidabile, la promessa di sistemi veramente intelligenti rimarrà insoddisfatta.