Het nieuwste AI-model van Google, Gemini 3, haalt de krantenkoppen met benchmarkscores die wijzen op aanzienlijke vooruitgang op het gebied van kunstmatige intelligentie. Hoewel deze resultaten het vertrouwen in het veld tijdelijk kunnen versterken, blijven de prestaties en betrouwbaarheid in de praktijk cruciale vragen.
Benchmarkscores en hun beperkingen
Google beweert dat Gemini 3 blijk geeft van redeneren op PhD-niveau, daarbij verwijzend naar de prestaties op tests zoals Humanity’s Last Exam – een rigoureuze beoordeling van kennis op universitair niveau op het gebied van wiskunde, natuurwetenschappen en geesteswetenschappen. Het model scoorde 37,5% en overtrof daarmee OpenAI’s GPT-5 (26,5%). Deskundigen waarschuwen echter voor het overinterpreteren van deze scores. Luc Rocher van de Universiteit van Oxford merkt op dat een verbetering van 80% naar 90% op een benchmark niet noodzakelijkerwijs neerkomt op een betekenisvolle sprong in echt redeneervermogen.
Benchmarktests, die vaak gebaseerd zijn op formaten met meerkeuzevragen of een enkel antwoord, geven mogelijk niet nauwkeurig de vaardigheden op het gebied van probleemoplossing uit de echte wereld weer. Rocher wijst erop dat artsen en advocaten cliënten niet beoordelen met meerkeuzevragen; hun expertise vereist een genuanceerde evaluatie. Er bestaat ook de zorg dat modellen mogelijk ‘vals spelen’ door eenvoudigweg informatie uit hun trainingsgegevens terug te halen.
Hallucinaties en zorgen over de betrouwbaarheid
Ondanks verbeteringen op het gebied van prestatiestatistieken vertoont Gemini 3 nog steeds een verontrustende tekortkoming die veel voorkomt bij grote taalmodellen: feitelijke onnauwkeurigheden en hallucinaties. Google erkent dit en stelt dat het model nog steeds valse of misleidende informatie zal produceren tegen een snelheid die vergelijkbaar is met die van andere toonaangevende AI-systemen. Dit is vooral zorgwekkend omdat één enkele significante fout het vertrouwen in de technologie kan aantasten. Artur d’Avila Garcez van City St George’s, Universiteit van Londen, onderstreept dat betrouwbaarheid van het allergrootste belang is: een catastrofale hallucinatie zou het hele systeem kunnen ondermijnen.
Toepassingen in de echte wereld en toekomstperspectieven
Google positioneert Gemini 3 als een verbetering voor taken als softwareontwikkeling, e-mailorganisatie en documentanalyse. Het bedrijf is ook van plan Google Zoeken te verbeteren met door AI gegenereerde afbeeldingen en simulaties. De grootste winst zou echter kunnen liggen in agentische codering: het gebruik van AI om autonoom code te schrijven. Adam Mahdi van de Universiteit van Oxford suggereert dat Gemini 3 Pro zal uitblinken in complexe workflows in plaats van alledaagse gesprekstaken.
Uit de eerste gebruikersfeedback blijkt zowel de lof voor de codeer- en redeneervaardigheden van Gemini 3 als de meldingen van mislukkingen bij eenvoudige tests voor visueel redeneren. De echte test zal zijn hoe effectief mensen het model in hun workflows integreren en of de betrouwbaarheid ervan de enorme investeringen in AI-infrastructuur rechtvaardigt.
De ultieme maatstaf voor succes voor Gemini 3 en vergelijkbare AI-modellen zijn niet alleen benchmarkscores, maar ook hun praktische waarde en betrouwbaarheid in toepassingen in de echte wereld.
De AI-wapenwedloop gaat door, maar totdat hallucinaties op betrouwbare wijze worden aangepakt, blijft de belofte van werkelijk intelligente systemen onvervuld.





























