Gemini 3 od Googlu: Pokrok nebo prázdný hluk?

7

Nový model umělé inteligence od Googlu, Gemini 3, obrací hlavu s výsledky testů, které naznačují významný pokrok ve schopnostech umělé inteligence. I když tyto výsledky mohou dočasně posílit důvěru v pole, skutečný výkon a spolehlivost zůstávají kritickými problémy.

Skóre testů a jejich omezení

Google říká, že Gemini 3 demonstruje „uvažování na úrovni doktorandů“ s odkazem na svůj výkon v testech, jako je Humanity’s Last Exam, přísné hodnocení znalostí na úrovni absolventa v matematice, přírodních vědách a humanitních oborech. Model dosáhl skóre 37,5 %, čímž porazil OpenAI GPT-5 (26,5 %). Odborníci však varují před přehnanou interpretací těchto odhadů. Luke Rosher z Oxfordské univerzity poukazuje na to, že zlepšení z 80 % na 90 % v testu nemusí nutně znamenat významný skok ve skutečné schopnosti uvažování.

Testy, které se často spoléhají na formáty s možností výběru z více odpovědí nebo s jednou odpovědí, nemusí přesně odrážet dovednosti řešení problémů v reálném světě. Roscher poukazuje na to, že lékaři a právníci nehodnotí klienty pomocí otázek s možností výběru; jejich zkoumání vyžaduje podrobné posouzení. Další obavou je, že modely mohou jednoduše „podvádět“ tím, že reprodukují informace z jejich tréninkových dat.

Halucinace a problémy se spolehlivostí

Navzdory vylepšení metrik výkonu Gemini 3 stále vykazuje znepokojivou chybu společnou velkým jazykovým modelům: faktické nepřesnosti a halucinace. Google to uznává a říká, že model bude stále generovat nepravdivé nebo zavádějící informace rychlostí srovnatelnou s jinými předními systémy umělé inteligence. To je obzvláště nebezpečné, protože jedna významná chyba může podkopat důvěru v technologii. Arthur d’Avila Garces z City St George’s, University of London, zdůrazňuje, že spolehlivost je prvořadá – katastrofická halucinace by mohla podkopat celý systém.

Aplikace v reálném světě a vyhlídky do budoucna

Google staví Gemini 3 jako vylepšení pro úkoly, jako je vývoj softwaru, organizace e-mailů a analýza dokumentů. Společnost také plánuje rozšířit Vyhledávání Google o grafiku a simulace generované umělou inteligencí. Nejvýznamnější pokroky však mohou spočívat v kódování agentů – použití AI k autonomnímu vývoji kódu. Adam Mahdi z Oxfordské univerzity naznačuje, že Gemini 3 Pro bude vynikat spíše ve složitých pracovních postupech než v každodenních konverzačních úkolech.

První zpětná vazba od uživatelů vyzdvihuje jak chválu za kódovací a uvažovací dovednosti Gemini 3, tak zprávy o závadách v jednoduchých testech vizuálního uvažování. Skutečným testem bude, jak efektivně lidé integrují model do svých pracovních procesů a zda jeho spolehlivost ospravedlní obrovské investice do infrastruktury AI.

Konečným měřítkem úspěchu Gemini 3 a podobných modelů umělé inteligence není pouze jejich srovnávací hodnocení, ale také jejich praktická hodnota a spolehlivost v aplikacích v reálném světě.

Závody ve zbrojení s umělou inteligencí pokračují, ale dokud nebudou halucinace pevně odstraněny, příslib skutečně inteligentních systémů zůstává nenaplněn.