Raksasa AI Bersatu Bikin Standar Skor Bahaya Jailbreak

Drama pembekuan Claude Fable 5 ternyata melahirkan sesuatu yang lebih besar dari sekadar satu model AI. Pada 1 Juli 2026, Anthropic mengumumkan sedang menyusun kerangka kerja bersama dengan Amazon, Microsoft, Google, dan mitra program Glasswing untuk menilai tingkat keparahan atau severity sebuah jailbreak AI. Kerangka ini digadang menjadi standar industri pertama, semacam CVSS versi kecerdasan buatan, untuk mengukur seberapa berbahaya sebuah celah keamanan model. Bagi dunia yang makin bergantung pada AI, termasuk Indonesia, ini bisa jadi fondasi baru dalam menilai risiko sekaligus menekan kepanikan berlebihan seperti pada kasus Fable 5.

Lahir dari Kekacauan Fable 5

Semua bermula dari laporan sebuah perusahaan, yang belakangan diketahui adalah Amazon, tentang adanya celah jailbreak pada Claude Fable 5. Temuan itu memicu pemerintah Amerika Serikat menerbitkan perintah pengendalian ekspor, dan model AI paling canggih milik Anthropic itu pun dibekukan secara global selama 18 hari. Yang menjadi sorotan, tidak ada satu pun standar baku yang bisa dipakai untuk menilai seberapa serius sebenarnya celah tersebut.

Anthropic sejak awal berpendapat bahwa temuan celah yang sempit tidak seharusnya langsung menjadi alasan menarik sebuah model yang sudah dipakai ratusan juta orang. Perusahaan menilai, tanpa tolok ukur yang konsisten, setiap laporan jailbreak berpotensi menghentikan peluncuran model baru di seluruh industri. Kekosongan standar inilah yang ingin mereka isi.

Maka bersamaan dengan dihidupkannya kembali Fable 5 pada 1 Juli 2026, Anthropic mengumumkan telah mulai menyusun kerangka kerja bersama dengan Amazon, Microsoft, Google, dan mitra lain dalam program Glasswing. Tujuannya jelas, yakni menciptakan cara yang seragam untuk mengelompokkan risiko jailbreak dan menentukan respons yang tepat, baik dari sisi perusahaan maupun pemerintah.

Empat Kriteria ala CVSS untuk AI

Kerangka ini kerap disebut sebagai CVSS versi AI. CVSS atau Common Vulnerability Scoring System adalah sistem yang selama ini dipakai tim keamanan untuk memberi skor tingkat keparahan celah pada perangkat lunak. Logika yang sama kini diterapkan pada ancaman baru berupa jailbreak model kecerdasan buatan.

Menurut rancangan yang beredar, ada empat kriteria penilaian. Pertama, capability gain, yaitu seberapa besar tambahan kemampuan berbahaya yang didapat lewat bypass. Kedua, breadth of capability gain, yakni seberapa luas cakupan kemampuan yang terbuka. Ketiga, ease of weaponization, yaitu seberapa mudah celah itu dipersenjatai. Keempat, discoverability, yakni seberapa mudah teknik itu ditemukan dan ditiru. Jailbreak universal yang bisa membuka banyak celah sekaligus dianggap sebagai ancaman paling serius.

Tidak berhenti di rubrik, Anthropic juga meluncurkan program lewat platform HackerOne bernama Anthropic Cyber Jailbreak. Program ini mengundang para peneliti keamanan untuk melaporkan potensi jailbreak siber yang mereka temukan pada Fable 5. Setiap laporan akan dievaluasi menggunakan kerangka severity tadi, dengan fokus pada temuan yang berpotensi membantu pelaku dalam operasi siber.

Anthropic turut memperdalam kerja sama dengan pemerintah AS, mulai dari pengujian pra-rilis, berbagi informasi, hingga kolaborasi riset. Perusahaan bahkan mengundang penyedia model lain untuk ikut menyempurnakan kerangka ini menjadi standar industri yang benar-benar disepakati bersama.

Standar Baru yang Masih Penuh Tanda Tanya

Banyak pengamat menilai kerangka ini sebagai preseden penting bagi cara peluncuran model AI frontier ke depan. Namun tidak sedikit yang mengingatkan bahwa penilaian severity mengandung banyak unsur subjektif. Menentukan seberapa mudah sebuah celah dipersenjatai atau seberapa luas dampaknya di dunia nyata bukan perkara yang bisa diukur dengan angka pasti.

Konsekuensinya, proses peluncuran model besar berpotensi diwarnai negosiasi panjang antara laboratorium AI dan pemerintah. Ada pula risiko pengaman menjadi terlalu ketat sehingga memunculkan banyak alarm palsu, seperti yang sempat terjadi pada Fable 5 ketika sebagian tugas rutin ikut diblokir. Harapannya, kerangka ini bisa membuat proses lebih efisien dan cepat, terutama untuk pembaruan versi kecil.

Bagi Indonesia, perkembangan ini penting untuk dicermati. Perusahaan dan pengembang solusi AI Indonesia yang membangun produk di atas model global perlu memahami bahwa risiko keamanan kini punya bahasa dan standar penilaiannya sendiri. Di sinilah peran AI integrator Indonesia menjadi krusial, yakni tidak hanya mengejar kemampuan model, tetapi juga menguasai manajemen risiko, menyiapkan mitigasi, dan merancang sistem yang tetap aman apa pun kebijakan yang berlaku. Standar severity jailbreak adalah pengingat bahwa keamanan adalah fondasi, bukan pelengkap.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan dengan bantuan AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

🦉 Burung Hantu Infratek adalah software house dan system integrator yang sudah berpengalaman lebih dari 5 tahun dalam pengembangan dan implementasi generative AI pada berbagai perusahaan dan institusi.

Berita Terkait Anthropic

🔓 Fable 5 Bangkit, AS Cabut Blokir Model Terkuat Anthropic

🛡️ Ratusan Pakar Siber Desak AS Cabut Blokir Anthropic

⚡ xAI Rilis Grok Build, Penantang Berat Claude Code

🌏 Anthropic Buka Kantor Seoul, SK Telecom Picu Drama

Sumber dan Referensi

[1] Redeploying Claude Fable 5 - Anthropic

[2] Project Glasswing - Anthropic

[3] After spooking Trump into safety testing, Anthropic AI models get global release - Ars Technica

[4] Anthropic Redeploys Fable 5 With Cross-Lab Jailbreak Rubric - AI Weekly

[5] Anthropic Cyber Jailbreak Response Policy - HackerOne

[6] Fable 5 Restored and the Jailbreak Severity Framework - bregg.com