OpenAI Rilis GeneBench-Pro, Ujian Berat AI Agen di Riset Genomika

OpenAI kembali menggeser standar evaluasi AI lewat GeneBench-Pro, benchmark riset tingkat lanjut yang menguji seberapa jauh agen AI mampu mengambil keputusan ilmiah di dunia biologi yang berantakan. Dirilis pada 30 Juni 2026, benchmark ini memuat 129 soal lintas genomika, biologi kuantitatif, dan biomedis translasional yang memaksa model bukan sekadar menghafal fakta, tapi memilih jalur analisis dan menilai kapan data layak dipercaya. Hasilnya cukup menampar, sebab model terbaik sekalipun hanya sanggup menembus sekitar sepertiga soal. Bagi AI integrator Indonesia yang mulai menyentuh sektor kesehatan dan bioinformatika, temuan ini jadi pengingat penting soal batas nyata otomasi AI di riset sains.

Apa Itu GeneBench-Pro dan Kenapa Beda

GeneBench-Pro merupakan versi perluasan dan penyempurnaan dari GeneBench sebelumnya yang berisi 103 evaluasi. Versi baru ini membawa 129 soal yang tersebar di sepuluh domain, mulai dari genetika statistik dan populasi, regulatory omics, hingga proteomika dan biomarker. Cakupannya sengaja diperluas agar mendekati kompleksitas nyata yang dihadapi ilmuwan biologi komputasional sehari-hari.

Yang membuatnya berbeda, GeneBench-Pro tidak menyodorkan data bersih dengan jalur penyelesaian yang jelas. Model justru diberi dataset penuh noise, bias, dan masalah kualitas seperti percampuran leluhur atau bias sequencing. Agen AI harus memilih alat analisis yang tepat, mendeteksi cacat data, memutuskan pertanyaan apa yang sebenarnya bisa dijawab, dan tahu kapan harus mengubah pendekatan.

Setiap soal memberi model sebuah dataset, konteks eksperimen, dan pertanyaan target. Dari situ model wajib mengeksplorasi data, memilih pendekatan analitis, lalu menyodorkan jawaban akhir yang bisa menuntun keputusan ilmiah atau translasional seperti go atau no-go pada sebuah studi.

Untuk menjaga kredibilitas, OpenAI mengirim 82 dari 129 soal ke pakar domain eksternal, mulai dari mahasiswa pascasarjana, peneliti postdoc, ilmuwan industri, hingga profesor. Para peninjau menilai tingkat realisme tiap soal dan memastikan jawaban targetnya memang bisa diidentifikasi. Riset ini digarap tim OpenAI yang antara lain melibatkan Jeremy Li dan Andrew Ho.

Skornya Bikin Kaget, Model Top Cuma Lewat Sepertiga

Hasil pengujian menegaskan betapa sulitnya benchmark ini. GPT-5.6 Sol Pro memuncaki papan skor dengan 31.5 persen pada mode reasoning maksimal, disusul GPT-5.6 Sol di angka 28.7 persen. Selisih dengan pesaing tergolong jauh.

Model dari kubu lain tertinggal cukup lebar. Claude Opus 4.8 hanya mencatat 16.0 persen, sementara Gemini 3.5 Flash tertahan di 8.1 persen. Artinya, model AI terbaik sekalipun masih gagal pada sekitar 70 persen soal riset biologi dunia nyata.

Angka itu makin terasa berat jika dibandingkan beban kerja manusia. Para peninjau memperkirakan satu soal khas membutuhkan waktu 20 hingga 40 jam kerja seorang pakar. Jurang antara kemampuan agen AI dan ahli manusia di ranah judgment ilmiah pun jadi sorotan utama.

OpenAI juga membuka sebagian benchmark untuk verifikasi independen. Sepuluh soal dirilis publik lewat Hugging Face dan lima puluh soal diserahkan ke Artificial Analysis, sehingga komunitas bisa mengecek ulang klaim performa tanpa harus percaya begitu saja pada angka internal.

Implikasi buat AI Integrator Indonesia

GeneBench-Pro mengirim sinyal jelas bahwa agen AI masih jauh dari peran ilmuwan otonom. Kemampuan menghadapi ambiguitas dan mengambil keputusan berisiko tetap menjadi batas terdepan yang belum tertaklukkan, bahkan oleh model paling canggih sekalipun.

Bagi software house dan integrator Indonesia yang menggarap solusi di sektor kesehatan, bioinformatika, atau riset data klinis, temuan ini menegaskan pentingnya menjaga manusia tetap di dalam alur kerja. AI paling aman diposisikan sebagai kopilot analitis, bukan pengganti penuh ahli domain yang paham konteks biologis.

Benchmark seperti ini juga bisa dipakai sebagai lensa due diligence saat memilih model untuk pekerjaan analitis serius. Alih-alih terpukau klaim pemasaran, tim teknis sebaiknya menakar performa model pada tugas yang mendekati kebutuhan riil klien sebelum mengunci arsitektur produk.

Dalam gambaran besar, 2026 menandai pergeseran evaluasi AI dari sekadar mengukur hafalan pengetahuan ke menguji kualitas penilaian. Integrator yang memahami pergeseran ini akan lebih jujur menakar kapabilitas AI, dan pada gilirannya membangun produk yang lebih tepercaya untuk klien korporat maupun institusi riset di Indonesia.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan dengan bantuan AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

🦉 Burung Hantu Infratek adalah software house dan system integrator yang sudah berpengalaman lebih dari 5 tahun dalam pengembangan dan implementasi generative AI pada berbagai perusahaan dan institusi.

Berita Terkait AI dan Model Besar

🛡️ Raksasa AI Bersatu Bikin Standar Skor Bahaya Jailbreak

🤖 Claude Sonnet 5 Meluncur, Otak Agentic Sekelas Opus

🧠 Gemini 3.5 Pro Segera Rilis, Konteks 2 Juta Token

🏃 Empat Peneliti Senior Google DeepMind Hengkang dalam Sepekan

✨ Gemini Spark Kini Hadir di Mac, Bisa Beresin File Lokal

Sumber dan Referensi

[1] Introducing GeneBench-Pro - OpenAI

[2] GeneBench-Pro Evaluating Multistage Statistical Reasoning in Genomics - OpenAI Paper

[3] OpenAI Introduces GeneBench-Pro to Test AI Research Judgment - Investing.com

[4] OpenAI GeneBench-Pro Stumps Top Models, GPT-5.6 Tops at 31.5 Percent - AI Weekly

[5] OpenAI Unveils GeneBench-Pro Benchmark - StartupHub.ai

[6] GeneBench-Pro Exposes That Top AI Fails Real Biology 70 Percent of the Time - AlphaSignal