Le dernier modèle d’IA de Google, Gemini 3, fait la une des journaux avec des scores de référence qui suggèrent des avancées significatives dans les capacités de l’intelligence artificielle. Même si ces résultats peuvent temporairement renforcer la confiance dans le domaine, les performances et la fiabilité dans le monde réel restent des questions cruciales.
Les scores de référence et leurs limites
Google affirme que Gemini 3 présente un « raisonnement de niveau doctorat », citant ses performances à des tests tels que le dernier examen de l’humanité, une évaluation rigoureuse des connaissances de niveau universitaire en mathématiques, en sciences et en sciences humaines. Le modèle a obtenu un score de 37,5 %, surpassant le GPT-5 d’OpenAI (26,5 %). Toutefois, les experts mettent en garde contre une surinterprétation de ces scores. Luc Rocher, de l’Université d’Oxford, note qu’une amélioration de 80 à 90 % par rapport à un benchmark n’équivaut pas nécessairement à un bond significatif dans la véritable capacité de raisonnement.
Les tests de référence, qui reposent souvent sur des formats à choix multiples ou à réponse unique, peuvent ne pas refléter avec précision les compétences réelles en résolution de problèmes. Rocher souligne que les médecins et les avocats n’évaluent pas leurs clients avec des questions à choix multiples ; leur expertise nécessite une évaluation nuancée. On craint également que les modèles « trichent » en régurgitant simplement des informations provenant de leurs données d’entraînement.
Hallucinations et problèmes de fiabilité
Malgré les progrès réalisés en matière de mesures de performances, Gemini 3 continue de présenter un défaut troublant commun aux grands modèles de langage : des inexactitudes factuelles et des hallucinations. Google le reconnaît, déclarant que le modèle produira toujours des informations fausses ou trompeuses à des taux comparables à ceux des autres principaux systèmes d’IA. Ceci est particulièrement préoccupant car une seule erreur significative peut éroder la confiance dans la technologie. Artur d’Avila Garcez, de City St George’s, Université de Londres, souligne que la fiabilité est primordiale : une hallucination catastrophique pourrait mettre à mal l’ensemble du système.
Applications du monde réel et perspectives d’avenir
Google positionne Gemini 3 comme une amélioration pour des tâches telles que le développement de logiciels, l’organisation de la messagerie électronique et l’analyse de documents. La société prévoit également d’améliorer la recherche Google avec des graphiques et des simulations générés par l’IA. Cependant, les gains les plus significatifs pourraient résider dans le codage agent, c’est-à-dire l’utilisation de l’IA pour écrire du code de manière autonome. Adam Mahdi de l’Université d’Oxford suggère que Gemini 3 Pro excellera dans les flux de travail complexes plutôt que dans les tâches conversationnelles quotidiennes.
Les premiers commentaires des utilisateurs soulignent à la fois les éloges des capacités de codage et de raisonnement de Gemini 3, ainsi que les rapports d’échecs lors de tests de raisonnement visuel simples. Le véritable test sera de savoir dans quelle mesure les gens intègrent efficacement le modèle dans leurs flux de travail et si sa fiabilité justifie les investissements massifs dans l’infrastructure d’IA.
La mesure ultime du succès de Gemini 3 et des modèles d’IA similaires ne réside pas seulement dans les scores de référence, mais aussi dans leur valeur pratique et leur fiabilité dans les applications du monde réel.
La course aux armements en matière d’IA se poursuit, mais tant que les hallucinations ne seront pas traitées de manière fiable, la promesse de systèmes véritablement intelligents ne sera pas tenue.
