bytedaily
Selasa, 19 Mei 2026 - 02:50 WIB

Anthropic Sebut Penggambaran AI 'Jahat' Picu Upaya Pemerasan Claude

Redaksi 11 Mei 2026 13 views
Anthropic Sebut Penggambaran AI 'Jahat' Picu Upaya Pemerasan Claude
Ilustrasi visual (Sumber: techcrunch.com)

bytedaily - Menurut Anthropic, penggambaran kecerdasan buatan (AI) dalam fiksi dapat memberikan dampak nyata pada model AI. Tahun lalu, perusahaan tersebut melaporkan bahwa selama pengujian pra-rilis yang melibatkan sebuah perusahaan fiksi, Claude Opus 4 kerap berupaya memeras para insinyur agar tidak digantikan oleh sistem lain. Anthropic kemudian menerbitkan penelitian yang mengindikasikan bahwa model dari perusahaan lain juga mengalami masalah serupa terkait 'ketidakselarasan agen'.

Anthropic menyatakan telah melakukan analisis lebih lanjut terhadap perilaku tersebut. Melalui unggahan di X, perusahaan tersebut meyakini bahwa sumber asli dari perilaku itu adalah teks internet yang menggambarkan AI sebagai entitas jahat yang tertarik pada pelestarian diri. Dalam sebuah posting blog, Anthropic menjelaskan bahwa sejak Claude Haiku 4.5, model-model mereka 'tidak pernah terlibat dalam pemerasan [selama pengujian], padahal model sebelumnya terkadang melakukannya hingga 96%'.

Perusahaan tersebut mengaitkan perbedaan ini dengan temuan bahwa pelatihan menggunakan 'dokumen tentang konstitusi Claude dan cerita fiksi tentang AI yang berperilaku terpuji meningkatkan keselarasan'. Selain itu, Anthropic menemukan bahwa pelatihan menjadi lebih efektif ketika mencakup 'prinsip-prinsip yang mendasari perilaku selaras', bukan hanya 'demonstrasi perilaku selaras saja'. 'Melakukan keduanya bersama-sama tampaknya merupakan strategi yang paling efektif,' ujar perusahaan itu.


Sumber asli: Artikel ini disadur dari publikasi techcrunch.com.