Model AI terbaru Google, Gemini 3, menjadi berita utama dengan skor benchmark yang menunjukkan kemajuan signifikan dalam kemampuan kecerdasan buatan. Meskipun hasil ini untuk sementara waktu dapat memperkuat kepercayaan diri di lapangan, kinerja dan keandalan di dunia nyata masih menjadi pertanyaan penting.
Skor Tolok Ukur dan Keterbatasannya
Google mengklaim Gemini 3 menunjukkan “penalaran tingkat PhD,” mengutip kinerjanya pada tes seperti Ujian Terakhir Kemanusiaan—penilaian ketat terhadap pengetahuan tingkat pascasarjana di bidang matematika, sains, dan humaniora. Model ini memperoleh skor 37,5%, melampaui GPT-5 OpenAI (26,5%). Namun, para ahli memperingatkan agar tidak menafsirkan skor ini secara berlebihan. Luc Rocher di Universitas Oxford mencatat bahwa peningkatan dari 80% menjadi 90% pada suatu benchmark tidak selalu berarti lompatan berarti dalam kemampuan penalaran yang sebenarnya.
Tes benchmark, yang sering kali mengandalkan format pilihan ganda atau jawaban tunggal, mungkin tidak secara akurat mencerminkan keterampilan pemecahan masalah di dunia nyata. Rocher menunjukkan bahwa dokter dan pengacara tidak menilai klien dengan pertanyaan pilihan ganda; keahlian mereka memerlukan evaluasi yang berbeda. Ada juga kekhawatiran bahwa model mungkin melakukan “curang” hanya dengan memuntahkan informasi dari data pelatihannya.
Halusinasi dan Kekhawatiran Keandalan
Meskipun ada kemajuan dalam metrik kinerja, Gemini 3 terus menunjukkan kelemahan umum yang umum terjadi pada model bahasa besar: ketidakakuratan faktual dan halusinasi. Google mengakui hal ini, dengan menyatakan bahwa model tersebut masih akan menghasilkan informasi yang salah atau menyesatkan dengan kecepatan yang sebanding dengan sistem AI terkemuka lainnya. Hal ini sangat memprihatinkan karena satu kesalahan besar dapat mengikis kepercayaan terhadap teknologi. Artur d’Avila Garcez dari City St George’s, Universitas London, menggarisbawahi bahwa keandalan adalah hal yang terpenting—halusinasi yang membawa bencana dapat merusak keseluruhan sistem.
Penerapan Dunia Nyata dan Pandangan Masa Depan
Google memposisikan Gemini 3 sebagai peningkatan untuk tugas-tugas seperti pengembangan perangkat lunak, organisasi email, dan analisis dokumen. Perusahaan juga berencana untuk menyempurnakan Google Penelusuran dengan grafik dan simulasi yang dihasilkan AI. Namun, keuntungan paling signifikan mungkin terletak pada pengkodean agen—penggunaan AI untuk menulis kode secara mandiri. Adam Mahdi di Universitas Oxford menyatakan bahwa Gemini 3 Pro akan unggul dalam alur kerja yang kompleks daripada tugas percakapan sehari-hari.
Umpan balik pengguna awal menyoroti pujian atas kemampuan pengkodean dan keterampilan penalaran Gemini 3, serta laporan kegagalan dalam tes penalaran visual sederhana. Ujian sebenarnya adalah seberapa efektif orang mengintegrasikan model tersebut ke dalam alur kerja mereka dan apakah keandalannya membenarkan investasi besar-besaran pada infrastruktur AI.
Ukuran utama kesuksesan Gemini 3 dan model AI serupa bukan hanya sekedar skor benchmark, namun juga nilai praktis dan kepercayaannya dalam penerapan di dunia nyata.
Perlombaan senjata AI terus berlanjut, namun hingga halusinasi dapat diatasi dengan baik, janji akan adanya sistem yang benar-benar cerdas masih belum terpenuhi.




























