Gemini 3 від Google: прогрес чи порожній шум?

2

Нова модель штучного інтелекту Google, Gemini 3, привертає увагу результатами тестів, які вказують на значний прогрес у можливостях ШІ. Однак, незважаючи на те, що ці результати можуть тимчасово підвищити впевненість у цій галузі, фактична продуктивність і надійність залишаються критичними проблемами.

Тестові результати та їх обмеження

Google каже, що Gemini 3 демонструє «міркування на рівні доктора філософії», посилаючись на його ефективність на таких тестах, як «Останній іспит людства», суворе оцінювання знань випускників з математики, природничих і гуманітарних предметів. Модель набрала 37,5%, обійшовши GPT-5 OpenAI (26,5%). Однак експерти застерігають від надмірного тлумачення цих оцінок. Люк Рошер з Оксфордського університету зазначає, що покращення результатів тесту з 80% до 90% не обов’язково означає значне зростання фактичної здатності міркувати.

Тести, які часто покладаються на формати кількох варіантів або однієї відповіді, можуть не точно відображати реальні навички вирішення проблем. Рошер зазначає, що лікарі та юристи не оцінюють клієнтів за допомогою питань із множинним вибором відповідей; їх вивчення потребує детальної оцінки. Інше занепокоєння полягає в тому, що моделі можуть просто «обманювати», відтворюючи інформацію зі своїх навчальних даних.

Галюцинації та проблеми з надійністю

Незважаючи на покращення показників продуктивності, Gemini 3 все ще демонструє тривожний недолік, спільний для великих мовних моделей: фактичні неточності та галюцинації. Google визнає це, заявляючи, що модель все одно генеруватиме неправдиву або оманливу інформацію зі швидкістю, порівнянною з іншими провідними системами ШІ. Це особливо небезпечно, оскільки одна серйозна помилка може підірвати довіру до технології. Артур д’Авіла Гарсес з Сіті Сент-Джордж Лондонського університету наголошує, що надійність має першочергове значення – катастрофічна галюцинація може підірвати всю систему.

Реальні програми та майбутні перспективи

Google позиціонує Gemini 3 як вдосконалення для таких завдань, як розробка програмного забезпечення, організація електронної пошти та аналіз документів. Компанія також планує розширити пошук Google за допомогою графіки та моделювання, згенерованих штучним інтелектом. Однак найбільш суттєвий прогрес може полягати в агентному кодуванні — використанні ШІ для автономної розробки коду. Адам Махді з Оксфордського університету припускає, що Gemini 3 Pro відмінно справляється зі складними робочими процесами, а не з щоденними розмовними завданнями.

Початкові відгуки користувачів підкреслюють як похвалу Gemini 3 за навички кодування та міркування, так і повідомлення про збої в простих тестах візуального мислення. Справжнім тестом буде те, наскільки ефективно люди інтегрують модель у свої робочі процеси та чи виправдовує її надійність величезні інвестиції в інфраструктуру ШІ.

Основним мірилом успіху Gemini 3 та подібних моделей штучного інтелекту є не лише їх контрольні результати, але й практична цінність і надійність у реальних програмах.

Гонка озброєнь штучного інтелекту триває, але поки галюцинації не будуть повністю усунені, обіцянка по-справжньому інтелектуальних систем залишається нездійсненою.