Новая модель искусственного интеллекта от Google, Gemini 3, привлекает внимание благодаря результатам тестов, которые указывают на значительный прогресс в возможностях ИИ. Однако, пока эти результаты могут временно укреплять уверенность в области, реальная производительность и надёжность остаются критически важными вопросами.
Оценки в Тестах и Их Ограничения
Google утверждает, что Gemini 3 демонстрирует “уровень рассуждений, соответствующий кандидату наук”, ссылаясь на её результаты в тестах, таких как Humanity’s Last Exam — строгой оценке знаний на уровне выпускника вуза в математике, науке и гуманитарных дисциплинах. Модель набрала 37,5%, превзойдя GPT-5 от OpenAI (26,5%). Однако эксперты предостерегают от чрезмерной интерпретации этих оценок. Люк Рошер из Оксфордского университета отмечает, что улучшение с 80% до 90% в тесте не обязательно означает значительный скачок в реальных способностях к рассуждениям.
Тесты, часто полагающиеся на формат с множественным выбором или одиночным ответом, могут неточно отражать навыки решения реальных проблем. Рошер указывает, что врачи и юристы не оценивают клиентов с помощью вопросов с вариантами ответов; их экспертиза требует нюансированной оценки. Также вызывает беспокойство то, что модели могут просто “списывать”, воспроизводя информацию из своих обучающих данных.
Галлюцинации и Проблемы Надёжности
Несмотря на улучшения в метриках производительности, Gemini 3 по-прежнему демонстрирует тревожный недостаток, характерный для больших языковых моделей: фактические неточности и галлюцинации. Google признаёт это, заявляя, что модель всё ещё будет генерировать ложную или вводящую в заблуждение информацию с частотой, сопоставимой с другими ведущими системами ИИ. Это особенно опасно, поскольку одна существенная ошибка может подорвать доверие к технологии. Артур д’Авила Гарсес из City St George’s, Университета Лондона, подчёркивает, что надёжность имеет первостепенное значение — катастрофическая галлюцинация может подорвать всю систему.
Реальные Применения и Перспективы на Будущее
Google позиционирует Gemini 3 как улучшение для задач, таких как разработка программного обеспечения, организация электронной почты и анализ документов. Компания также планирует расширить Google Search с помощью графики и симуляций, созданных ИИ. Однако самые значительные достижения могут заключаться в агентурном кодировании — использовании ИИ для автономной разработки кода. Адам Махди из Оксфордского университета предполагает, что Gemini 3 Pro преуспеет в сложных рабочих процессах, а не в повседневных разговорных задачах.
Первоначальные отзывы пользователей подчёркивают как похвалу за навыки кодирования и рассуждения Gemini 3, так и сообщения о сбоях в простых тестах на визуальное мышление. Истинным испытанием станет то, насколько эффективно люди интегрируют модель в свои рабочие процессы и оправдывает ли её надёжность огромные инвестиции в ИИ-инфраструктуру.
Конечным мерилом успеха для Gemini 3 и подобных моделей ИИ является не только оценка в тестах, но и их практическая ценность и надёжность в реальных приложениях.
Гонка вооружений в области ИИ продолжается, но пока галлюцинации надёжно не будут устранены, обещание действительно разумных систем остаётся невыполненным.
