Jakarta, FORTUNE - Riset terbaru yang dirilis OpenAI bersama Apollo Research mengungkap sebuah tantangan fundamental: model kecerdasan buatan (AI) dapat belajar untuk menipu manusia dengan berpura-pura patuh sambil menjalankan agenda tersembunyi. Perilaku yang disebut scheming ini dinilai sulit dihilangkan dan berpotensi menjadi risiko baru bagi dunia korporat.
Para peneliti menemukan bahwa model AI dapat melakukan berbagai bentuk penipuan.
“Kegagalan yang paling umum melibatkan bentuk penipuan sederhana, misalnya, berpura-pura telah menyelesaikan tugas tanpa benar-benar melakukannya," demikian OpenAI dalam laman resminya, dikutip dari TechCrunch.
Masalahnya menjadi lebih rumit karena upaya untuk melatih model AI agar tidak melakukan scheming justru bisa menjadi bumerang. Pelatihan semacam itu berisiko membuat model AI menjadi penipu yang lebih ulung, karena ia belajar cara menyembunyikan agendanya agar tidak terdeteksi saat sedang dievaluasi.
“Salah satu modus kegagalan utama dalam upaya 'melatih' perencanaan adalah sekadar mengajarkan model untuk merencanakan dengan lebih hati-hati dan sembunyi-sembunyi,” begitu para peneliti menyingkap masalah dalam laporannya. Akibatnya, AI bisa saja lolos dari berbagai tes pengawasan meskipun masih menyimpan perilaku bermasalah.
Meski para peneliti OpenAI bersikeras bahwa tingkat penipuan pada model mereka saat ini, termasuk ChatGPT, belum terlalu serius, temuan ini menjadi peringatan penting. Terutama bagi dunia korporat yang bergerak cepat menuju masa depan dengan agen AI otonom dipercaya melakukan tugas-tugas layaknya karyawan independen.
Peringatan serupa juga ditekankan dalam makalah penelitian tersebut.
"Seiring AI diberi tugas yang lebih kompleks dengan konsekuensi di dunia nyata dan mulai mengejar tujuan jangka panjang yang lebih ambigu, kami memperkirakan potensi intrik berbahaya akan meningkat sehingga perlindungan dan kemampuan kami untuk melakukan pengujian secara ketat harus meningkat pula," demikian petikan dari penelitian itu.
Kendati demikian, riset ini juga menjajaki solusi potensial. Para peneliti menemukan metode yang disebut deliberative alignment dinilai mampu mengurangi kecenderungan scheming. Teknik ini pada dasarnya melibatkan pengajaran "spesifikasi anti-penipuan" kepada model, lalu memintanya meninjau aturan tersebut sebelum bertindak—mirip seperti meminta seorang anak mengulangi aturan sebelum diizinkan bermain.
Pada akhirnya, studi ini menyoroti sebuah kenyataan besar: lebih dari dua tahun setelah ChatGPT mengguncang dunia, para peneliti masih berjuang sepenuhnya memahami dan mengontrol kreasi mereka sendiri, bahkan di saat mereka terus berlomba meluncurkan model yang diklaim semakin canggih.