GPT-5.2 Kalahkan Gemini 3 Pro di ARC AGI 2 dan Spekulasi Gemini 3.1 Mulai Beredar

Perang benchmark AI kembali memanas setelah komunitas Reddit dan Twitter melaporkan bahwa GPT-5.2 dari OpenAI berhasil mengalahkan skor Gemini 3 Pro di leaderboard ARC AGI 2. Kabar ini memicu spekulasi bahwa Google sedang mempersiapkan Gemini 3.1, yang diduga menjadi penyebab penurunan kualitas Gemini 3 yang dikeluhkan banyak pengguna. Bagi software developer AI dan pengembang aplikasi AI, dinamika ini menunjukkan betapa cepatnya lanskap AI berubah dalam hitungan minggu.

GPT-5.2 Naik ke Puncak Benchmark Reasoning

Sehari setelah OpenAI merilis GPT-5.2 pada 11 Desember 2025 sebagai respons terhadap dominasi Gemini 3, laporan dari komunitas AI di Reddit dan Twitter menunjukkan hasil yang mengejutkan. GPT-5.2 dilaporkan mencatat skor lebih tinggi dibanding Gemini 3 Pro di benchmark ARC AGI 2, salah satu tolak ukur paling bergengsi untuk mengukur kemampuan reasoning dan adaptasi AI.

ARC AGI 2 yang diluncurkan pada Maret 2025 dirancang untuk menguji kemampuan fluid intelligence sistem AI, kemampuan untuk beradaptasi dan memecahkan masalah baru tanpa pelatihan khusus. Benchmark ini dianggap sebagai indikator yang lebih akurat untuk mengukur seberapa dekat suatu model AI dengan kecerdasan umum (general intelligence).

Ketika Gemini 3 Pro pertama kali dirilis pada 18 November 2025, model ini sempat mendominasi berbagai leaderboard dan memicu kepanikan di OpenAI hingga Sam Altman mendeklarasikan "code red". Namun tampaknya meja telah berbalik dengan cepat setelah GPT-5.2 hadir.

Spekulasi Gemini 3.1 dan Degradasi Kualitas

Diskusi yang lebih menarik muncul ketika pengguna mulai menghubungkan temuan benchmark ini dengan keluhan masif tentang penurunan kualitas Gemini 3. Banyak pengguna di Reddit dan forum AI melaporkan bahwa respons Gemini 3 menjadi lebih lambat, kurang akurat, dan sering mengalami hallucination dibanding saat pertama kali diluncurkan.

Spekulasi yang beredar menyebutkan bahwa Google kemungkinan sedang mempersiapkan Gemini 3.1 sebagai upgrade untuk menjawab GPT-5.2. Teori ini didukung oleh pola Google sebelumnya yang sering merilis update incremental (seperti Gemini 2.5 setelah 2.0) dalam waktu relatif singkat.

Jika benar, penurunan kualitas Gemini 3 bisa dijelaskan dengan dua kemungkinan. Pertama, Google mungkin mengalihkan sumber daya komputasi untuk pengembangan Gemini 3.1. Kedua, lonjakan pengguna dari ChatGPT (dilaporkan mencapai 200 juta migrasi) mungkin membebani infrastruktur Google yang belum siap untuk skala tersebut.

Perang Benchmark yang Tidak Pernah Berakhir

Dinamika GPT-5.2 vs Gemini 3 ini menunjukkan realitas baru industri AI: tidak ada pemimpin yang permanen. Hanya dalam hitungan minggu, posisi bisa berbalik drastis. Gemini 3 yang sempat membuat OpenAI panik kini harus menghadapi tantangan serupa.

ARC Prize, organisasi di balik benchmark ARC AGI, menekankan bahwa benchmark ini bukan hanya soal skor tinggi, tetapi juga efisiensi. Model yang pintar tetapi membutuhkan biaya komputasi sangat tinggi tetap dianggap inferior dibanding model yang efisien. Ini menjadi pertimbangan penting bagi para developer yang harus memperhitungkan cost-per-task dalam aplikasi produksi mereka.

Sementara itu, Google belum memberikan konfirmasi resmi mengenai Gemini 3.1 atau alasan di balik keluhan kualitas Gemini 3. OpenAI juga belum merilis benchmark resmi untuk GPT-5.2 di ARC AGI 2. Kedua perusahaan tampaknya memilih untuk fokus pada pengembangan daripada perang statement.

(Burung Hantu Infratek / Reddit / Twitter / ARC Prize)

⚠️ Berita ini berdasarkan diskusi komunitas di Reddit dan Twitter. Belum ada konfirmasi resmi dari Google atau OpenAI. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

Berita Terkait Perang AI dan Benchmark

🤖 Gemini 3 Dikomplain Habis Kualitas Anjlok Gara-Gara Eksodus ChatGPT

🚀 OpenAI Resmi Rilis GPT-5.2 Sebagai Jawaban Code Red Lawan Gemini 3

🏆 Google Gemini 3 Kuasai Benchmark dan Ancam Dominasi OpenAI

📊 AI Model Benchmarks Perbandingan GPT-5 Claude Gemini Grok

Sumber dan Referensi

[1] ARC-AGI-2 Leaderboard - ARC Prize

[2] ARC-AGI-2 + ARC Prize 2025 is Live - ARC Prize

[3] AI Model Benchmarks Nov 2025 - LM Council

[4] Gemini 3 Pro Documentation - Google Cloud

[5] [A new era of intelligence with Gemini 3 - Google Blog](https://blog.google/products/gemini/gemini-3/#:~:text=It significantly outperforms 2.5 Pro,breakthrough score of 1501 Elo.)

[6] OpenAI Code Red Crisis Memo - Gizmodo

[7] Dissecting Gemini 3 Ultimate Execution of Scaling Law - 36Kr

[8] Persistent Failures in Google Gemini AI Model - Abit

[9] ChatGPT Release Notes GPT-5.2 - OpenAI Help Center

[10] Inside the making of Gemini 3 - ZDNet