El último modelo de IA de Google, Gemini 3, está en los titulares con puntuaciones de referencia que sugieren avances significativos en las capacidades de inteligencia artificial. Si bien estos resultados pueden reforzar temporalmente la confianza en el campo, el rendimiento y la confiabilidad en el mundo real siguen siendo cuestiones cruciales.
Puntuaciones de referencia y sus limitaciones
Google afirma que Gemini 3 exhibe un “razonamiento a nivel de doctorado”, citando su desempeño en pruebas como Humanity’s Last Exam, una evaluación rigurosa del conocimiento a nivel de posgrado en matemáticas, ciencias y humanidades. El modelo obtuvo una puntuación del 37,5%, superando al GPT-5 de OpenAI (26,5%). Sin embargo, los expertos advierten contra la sobreinterpretación de estas puntuaciones. Luc Rocher, de la Universidad de Oxford, señala que mejorar del 80% al 90% en un punto de referencia no equivale necesariamente a un salto significativo en la capacidad de razonamiento genuina.
Las pruebas de referencia, que a menudo se basan en formatos de opción múltiple o de respuesta única, pueden no reflejar con precisión las habilidades de resolución de problemas del mundo real. Rocher señala que los médicos y abogados no evalúan a los clientes con preguntas de opción múltiple; su experiencia requiere una evaluación matizada. También existe la preocupación de que los modelos puedan estar “haciendo trampa” simplemente regurgitando información de sus datos de entrenamiento.
Alucinaciones y preocupaciones sobre la confiabilidad
A pesar de los avances en las métricas de rendimiento, Gemini 3 continúa exhibiendo un defecto preocupante común a los modelos de lenguaje grandes: imprecisiones fácticas y alucinaciones. Google lo reconoce y afirma que el modelo seguirá produciendo información falsa o engañosa a un ritmo comparable al de otros sistemas líderes de inteligencia artificial. Esto es particularmente preocupante porque un solo error significativo puede erosionar la confianza en la tecnología. Artur d’Avila Garcez, de la City St George’s de la Universidad de Londres, subraya que la confiabilidad es primordial: una alucinación catastrófica podría socavar todo el sistema.
Aplicaciones del mundo real y perspectivas futuras
Google posiciona a Gemini 3 como una mejora para tareas como desarrollo de software, organización de correo electrónico y análisis de documentos. La compañía también planea mejorar la Búsqueda de Google con simulaciones y gráficos generados por IA. Sin embargo, las ganancias más significativas pueden residir en la codificación agente: el uso de IA para escribir código de forma autónoma. Adam Mahdi de la Universidad de Oxford sugiere que Gemini 3 Pro destacará en flujos de trabajo complejos en lugar de tareas de conversación cotidianas.
Los comentarios iniciales de los usuarios destacan tanto los elogios por las capacidades de codificación y razonamiento de Gemini 3, como también los informes de fallas en pruebas simples de razonamiento visual. La verdadera prueba será la eficacia con la que las personas integran el modelo en sus flujos de trabajo y si su confiabilidad justifica las inversiones masivas en infraestructura de IA.
La medida definitiva del éxito de Gemini 3 y modelos de IA similares no son sólo las puntuaciones de referencia, sino también su valor práctico y su confiabilidad en aplicaciones del mundo real.
La carrera armamentista de la IA continúa, pero hasta que las alucinaciones no se aborden de manera confiable, la promesa de sistemas verdaderamente inteligentes seguirá sin cumplirse.



























