Gemini 3 od Google: postęp czy pusty hałas?

21

Nowy model sztucznej inteligencji Google, Gemini 3, przyciąga wzrok wynikami testów, które wskazują na znaczny postęp w zakresie możliwości sztucznej inteligencji. Jednakże, chociaż wyniki te mogą tymczasowo zwiększyć zaufanie w terenie, faktyczna wydajność i niezawodność pozostają kwestiami krytycznymi.

Wyniki testów i ich ograniczenia

Google twierdzi, że Gemini 3 wykazuje „rozumowanie na poziomie doktora”, powołując się na swoje wyniki w testach takich jak Humanity’s Last Exam, rygorystycznej ocenie wiedzy na poziomie magisterskim z przedmiotów matematycznych, ścisłych i humanistycznych. Model uzyskał 37,5%, pokonując GPT-5 OpenAI (26,5%). Eksperci ostrzegają jednak przed nadinterpretacją tych szacunków. Luke Rosher z Uniwersytetu Oksfordzkiego zwraca uwagę, że poprawa wyniku testu z 80% do 90% niekoniecznie oznacza znaczny skok w rzeczywistej zdolności rozumowania.

Testy, które często opierają się na formacie wielokrotnego wyboru lub pojedynczej odpowiedzi, mogą nie odzwierciedlać dokładnie umiejętności rozwiązywania problemów w świecie rzeczywistym. Roscher zwraca uwagę, że lekarze i prawnicy nie oceniają klientów za pomocą pytań wielokrotnego wyboru; ich badanie wymaga szczegółowej oceny. Innym problemem jest to, że modele mogą po prostu „oszukiwać”, odtwarzając informacje z danych uczących.

Halucynacje i problemy z niezawodnością

Pomimo poprawy wskaźników wydajności, Gemini 3 nadal wykazuje niepokojącą wadę typową dla dużych modeli językowych: nieścisłości w faktach i halucynacje. Google potwierdza to, twierdząc, że model będzie nadal generował fałszywe lub wprowadzające w błąd informacje w tempie porównywalnym z innymi wiodącymi systemami sztucznej inteligencji. Jest to szczególnie niebezpieczne, ponieważ jeden istotny błąd może podważyć zaufanie do technologii. Arthur d’Avila Garces z City St George’s na Uniwersytecie Londyńskim podkreśla, że ​​niezawodność jest najważniejsza – katastrofalna halucynacja może osłabić cały system.

Zastosowania w świecie rzeczywistym i perspektywy na przyszłość

Google pozycjonuje Gemini 3 jako ulepszenie do zadań takich jak tworzenie oprogramowania, organizacja poczty e-mail i analiza dokumentów. Firma planuje także rozszerzyć wyszukiwarkę Google o grafikę i symulacje generowane przez sztuczną inteligencję. Jednak najbardziej znaczący postęp może polegać na kodowaniu agentów — wykorzystaniu sztucznej inteligencji do samodzielnego tworzenia kodu. Adam Mahdi z Uniwersytetu Oksfordzkiego sugeruje, że Gemini 3 Pro będzie doskonale radził sobie ze złożonymi zadaniami, a nie codziennymi zadaniami konwersacyjnymi.

Wstępne opinie użytkowników podkreślają zarówno pochwały dla umiejętności kodowania i rozumowania Gemini 3, jak i raporty o błędach w prostych testach rozumowania wizualnego. Prawdziwym testem będzie to, jak skutecznie ludzie integrują model ze swoimi procesami pracy i czy jego niezawodność uzasadnia ogromne inwestycje w infrastrukturę AI.

Ostateczną miarą sukcesu Gemini 3 i podobnych modeli AI są nie tylko wyniki w testach porównawczych, ale także ich wartość praktyczna i niezawodność w rzeczywistych zastosowaniach.

Wyścig zbrojeń AI trwa, ale dopóki halucynacje nie zostaną zdecydowanie wyeliminowane, obietnica stworzenia naprawdę inteligentnych systemów pozostaje niespełniona.