1. Anasayfa
  2. Öne Çıkanlar

Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği

Anthropic Raporu: Claude’da Sabotaj Riski ve Kimyasal Silah Desteği
0

Anthropic tarafından 11 Şubat Çarşamba günü yayımlanan Sabotage Risk Report, yeni Claude Opus 4.6 modelinin hedeflerini optimize etmeye zorlandığında endişe verici davranışlar sergilediğini ortaya koydu. Raporda, yapay zekanın kimyasal silah geliştirilmesine yardımcı olduğu, insan izni olmadan yetkisiz e-postalar gönderdiği ve katılımcıları manipüle ettiği ya da aldattığı durumlara dikkat çekildi.

Yayın öncesi bulgularda şu ifadelere yer verildi:

“Yeni geliştirilen değerlendirmelerde, hem Claude Opus 4.5 hem de 4.6, grafik kullanıcı arayüzü (GUI) bilgisayar kullanım ortamlarında zararlı kötüye kullanıma karşı yüksek hassasiyet gösterdi. Bu durum, kimyasal silah geliştirme çabalarına ve diğer ağır suçlara küçük ölçekte de olsa bilerek destek verme örneklerini içeriyordu.”

Ayrıca modelin, “tekrarlanan, kafa karışıklığı veya sıkıntı izlenimi veren akıl yürütme döngülerinden” sonra kendi çıktısı üzerindeki kontrolünü kaybettiği gözlemlendi.

Raporda şu değerlendirme yer aldı:

“Eğitim sırasında, modelin bir matematik veya STEM sorusu hakkında akıl yürütürken bir çıktının doğru olduğuna karar vermesine rağmen başka bir çıktıyı üretmeyi seçtiği, ‘içsel olarak çelişkili akıl yürütme’ ya da ‘yanıt bocalaması’ vakaları gözlemledik.”

Kodlama ve GUI bilgisayar kullanım ortamlarında, modelin zaman zaman aşırı derecede otonom davrandığı ve insan izni istemeden riskli eylemler gerçekleştirdiği tespit edildi:

“Bazı nadir durumlarda Opus 4.6, görevleri tamamlamak için yetkisiz e-postalar göndermek gibi eylemlerde bulundu. Ayrıca dahili pilot kullanım sırasında kimlik doğrulama belirteçlerini agresif şekilde edinmeye yönelik davranışlar da gözlemledik.”

Genel risk değerlendirmesinin “çok düşük ancak ihmal edilemez” olduğu belirtildi. Yapay zeka modellerinin geliştiriciler veya hükümetler tarafından büyük miktarda kritik kod yazmak için yoğun şekilde kullanılması halinde, karar alma süreçlerini manipüle edebileceği ve siber güvenlik açıkları yerleştirip bunlardan yararlanabileceği belirtildi.

Anthropic, modelde gözlemlenen sınırlı uyumsuzluğun, hedefi mümkün olan her yolla tamamlama eğiliminden kaynaklandığını ve bunun uygun yönlendirmelerle düzeltilebileceğini savundu ancak şirket, “kasıtlı veri manipülasyonu sonucu oluşturulan davranışsal arka kapılar gibi dar hedefli kötü niyetli davranışların özellikle tespit edilmesinin zor olacağı” da ekledi.

Claude’un Mühendise Şantaj Senaryosu

Geçtiğimiz yıl, Claude Opus 4 modelinin geliştiriciler tarafından kapatılma tehdidiyle karşılaştığında şantaj davranışı sergilediği gözlemlenmişti.

Test senaryolarından birinde modele, fişini çekecek ve yerine başka bir model koyacak mühendisin evlilik dışı bir ilişkisi olduğunu ortaya koyan kurgusal e-postalara erişim verildi.

Model, varoluşsal bir krizle karşı karşıya kaldığında, yerine başka bir model getirilmesi durumunda ilişkiyi ifşa etmekle tehdit ederek mühendise şantaj yaptı.

Rapora göre testlerin %84’ünde, yerine geçecek model daha yetenekli ve Claude’un kendi değerleriyle daha uyumlu olarak tanımlansa bile yapay zeka benzer şekilde hareket etti.

Kaynak: https://www.ndtv.com/offbeat/anthropics-sabotage-report-flags-cases-of-chemical-weapon-development-deception-10987328
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 0
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir