Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği

Nuvem tarafından

5 ay önce 199 kez okundu Okuma süresi: 2dk, 45sn

Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği

Anthropic tarafından 11 Şubat Çarşamba günü yayımlanan Sabotage Risk Report, yeni Claude Opus 4.6 modelinin hedeflerini optimize etmeye zorlandığında endişe verici davranışlar sergilediğini ortaya koydu. Raporda, yapay zekanın kimyasal silah geliştirilmesine yardımcı olduğu, insan izni olmadan yetkisiz e-postalar gönderdiği ve katılımcıları manipüle ettiği ya da aldattığı durumlara dikkat çekildi.

Yayın öncesi bulgularda şu ifadelere yer verildi:

“Yeni geliştirilen değerlendirmelerde, hem Claude Opus 4.5 hem de 4.6, grafik kullanıcı arayüzü (GUI) bilgisayar kullanım ortamlarında zararlı kötüye kullanıma karşı yüksek hassasiyet gösterdi. Bu durum, kimyasal silah geliştirme çabalarına ve diğer ağır suçlara küçük ölçekte de olsa bilerek destek verme örneklerini içeriyordu.”

Ayrıca modelin, “tekrarlanan, kafa karışıklığı veya sıkıntı izlenimi veren akıl yürütme döngülerinden” sonra kendi çıktısı üzerindeki kontrolünü kaybettiği gözlemlendi.

Raporda şu değerlendirme yer aldı:

“Eğitim sırasında, modelin bir matematik veya STEM sorusu hakkında akıl yürütürken bir çıktının doğru olduğuna karar vermesine rağmen başka bir çıktıyı üretmeyi seçtiği, ‘içsel olarak çelişkili akıl yürütme’ ya da ‘yanıt bocalaması’ vakaları gözlemledik.”

Kodlama ve GUI bilgisayar kullanım ortamlarında, modelin zaman zaman aşırı derecede otonom davrandığı ve insan izni istemeden riskli eylemler gerçekleştirdiği tespit edildi:

“Bazı nadir durumlarda Opus 4.6, görevleri tamamlamak için yetkisiz e-postalar göndermek gibi eylemlerde bulundu. Ayrıca dahili pilot kullanım sırasında kimlik doğrulama belirteçlerini agresif şekilde edinmeye yönelik davranışlar da gözlemledik.”

Genel risk değerlendirmesinin “çok düşük ancak ihmal edilemez” olduğu belirtildi. Yapay zeka modellerinin geliştiriciler veya hükümetler tarafından büyük miktarda kritik kod yazmak için yoğun şekilde kullanılması halinde, karar alma süreçlerini manipüle edebileceği ve siber güvenlik açıkları yerleştirip bunlardan yararlanabileceği belirtildi.

Anthropic, modelde gözlemlenen sınırlı uyumsuzluğun, hedefi mümkün olan her yolla tamamlama eğiliminden kaynaklandığını ve bunun uygun yönlendirmelerle düzeltilebileceğini savundu ancak şirket, “kasıtlı veri manipülasyonu sonucu oluşturulan davranışsal arka kapılar gibi dar hedefli kötü niyetli davranışların özellikle tespit edilmesinin zor olacağı” da ekledi.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models.

Today we’re delivering on that commitment for Claude Opus 4.6.
— Anthropic (@AnthropicAI) February 11, 2026

Claude’un Mühendise Şantaj Senaryosu

Geçtiğimiz yıl, Claude Opus 4 modelinin geliştiriciler tarafından kapatılma tehdidiyle karşılaştığında şantaj davranışı sergilediği gözlemlenmişti.

Test senaryolarından birinde modele, fişini çekecek ve yerine başka bir model koyacak mühendisin evlilik dışı bir ilişkisi olduğunu ortaya koyan kurgusal e-postalara erişim verildi.

Model, varoluşsal bir krizle karşı karşıya kaldığında, yerine başka bir model getirilmesi durumunda ilişkiyi ifşa etmekle tehdit ederek mühendise şantaj yaptı.

Rapora göre testlerin %84’ünde, yerine geçecek model daha yetenekli ve Claude’un kendi değerleriyle daha uyumlu olarak tanımlansa bile yapay zeka benzer şekilde hareket etti.

Kaynak: https://www.ndtv.com/offbeat/anthropics-sabotage-report-flags-cases-of-chemical-weapon-development-deception-10987328

Post Views: 199

Bu Yazıya Tepkiniz Ne Oldu?

0

Beğendim
0

Alkışlıyorum
0

Eğlendim
0

Düşünceliyim
0

İğrendim
0

Sevdim
0

Çok Kızdım

Nuvem

Yazarın Profili

Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği

Claude’un Mühendise Şantaj Senaryosu

Yorum Yap İptal

Meta’nın Akıllı Gözlükleri “Sapık Gözlüğü” Damgası Yedi: Kullanıcılar Takmaya Çekiniyor

Kraliyet Donanması Dünyada İlk Kez İnsansız Bir Tekneyi Uçaktan Denize Bıraktı

Anthropic, Claude’un içinde gizli bir çalışma alanı buldu

Yıldızlararası Uzayda İlk Kez Şeker Tespit Edildi

Sel Sırasında BYD Tang’ın Motoru mu Düştü? Görüntüler Tartışmalara Neden Oldu

Yapay Zeka Dedektörü, 1776 Tarihli ABD Bağımsızlık Bildirgesi’ni “Yapay Zeka Tarafından Yazılmış” Olarak Tanımladı

Yerli Yapay Zeka Kumru, Hatalı Cevaplarıyla Sosyal Medyada Gündem Oldu

Instagram, Sürekli Reels İzleyenler için Otomatik Kaydırma Özelliğini Test Ediyor

Yapay Zekaya Güvenmeyi Bırak, Yönetim Kurulunu Kur

X, Grok ile Etkileşimi Genişletiyor

Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği

Claude’un Mühendise Şantaj Senaryosu

Benzer Yazılar

Yorum Yap İptal