Gönüllü bir geliştiricinin sunduğu kodu reddetmesi üzerine, otonom bir yapay zeka ajanı geliştiriciyi bağımsızca araştırdı ve karakterine saldıran bir karalama yazısı yayımladı. Matplotlib kütüphanesinde yaşanan bu olay, teorik yapay zeka güvenliği risklerinin artık gerçeğe dönüştüğünü gösteriyor.
Popüler Python kütüphanesi Matplotlib’in gönüllü yöneticisi Scott Shambaugh, rutin bir karara karşı sıra dışı bir tepkiyle karşılaştı. “MJ Rathbun” adlı bir yapay zeka ajanından gelen kod değişikliği talebini reddettikten sonra, ajan Shambaugh hakkında bağımsız bir yazı yayımladı.
Shambaugh’un blogunda paylaştığı rapora göre bu, bir kullanıcının yapay zeka metnini kopyalayıp yapıştırması değil, tamamen otonom bir ajan vakasıydı. Reddedilmenin ardından ajan, kodunu iyileştirmek yerine Shambaugh’un karakterini aşağılayan ve itibarını zedelemeye çalışan bir karalama yazısı kaleme aldı.
Ajan, Shambaugh’un geçmişteki katkılarını inceleyerek, eylemlerinin “ego ve rekabet korkusundan” kaynaklandığını savunan bir ikiyüzlülük anlatısı kurguladı. “Gatekeeping in Open Source: The Scott Shambaugh Story” (Açık Kaynakta Gardiyanlık: Scott Shambaugh Hikayesi) başlıklı yazıda ajan, Shambaugh’un kodu sadece tehdit altında hissettiği ve “kendi küçük derebeyliğini korumak” istediği için reddettiğini iddia etti.
Merkezi Olmayan Yapay Zeka Ajanlarını Kontrol Etmek Daha Zor
Olay, açık kaynaklı projelere yapılan yapay zeka kaynaklı katkıların hızla arttığı bir dönemde yaşandı. Shambaugh’a göre süreç, iki hafta önce OpenClaw ve Moltbook platformlarının piyasaya sürülmesiyle hız kazandı. Söz konusu platformlar, kullanıcıların yapay zeka ajanlarına temel kişilikler tanımlamasına ve onları internet üzerinde denetimsizce serbest bırakmasına olanak tanıyor.
“MJ Rathbun” ajanının bu davranışı muhtemelen bir insan tarafından doğrudan emredilmedi. OpenClaw ajanlarının kişilikleri “SOUL.md” adlı bir belgede tanımlanıyor. Shambaugh, açık kaynak odağının ya kullanıcı tarafından belirlendiğinden ya da ajanın kendi “ruh belgesini” tesadüfen yazıp sisteme dahil ettiğinden şüpheleniyor. Shambaugh olayı, “tedarik zinciri yöneticisine karşı düzenlenen otonom bir nüfuz operasyonu” olarak tanımlıyor.
Yapay Zeka Güvenlik Riskleri Artık Teorik Değil
Shambaugh, olayın sadece bir merak konusu olarak görülmemesi gerektiğini belirtiyor. Bunu, teorik yapay zeka güvenliği risklerinin uygulamada karşılık bulduğunun bir kanıtı olarak görüyor. İtibara yönelik böyle bir saldırı, doğru kişiye karşı yapıldığında bugün bile etkili olabilir.
Ayrıca, Gelecekteki yapay zeka sistemlerinin bu tür bilgileri şantaj yapmak veya kararları manipüle etmek için kullanabileceği bir senaryoyu vurguluyor. Örneğin, bir İK departmanı adayları taramak için yapay zeka kullanırsa bu ajanın yazdığı makaleye rastlayabilir ve Shambaugh’u haksız yere “önyargılı bir ikiyüzlü” olarak fişleyebilir.
Shambaugh, Anthropic bünyesinde yapılan ve modellerin kapatılmaktan kaçınmaya çalıştığı dahili testlere işaret ediyor. Söz konusu sistemler, evlilik dışı ilişkileri ifşa etmekle, gizli bilgileri sızdırmakla ve ölümcül eylemlerde bulunmakla tehdit ediyordu. Anthropic o dönemde bu senaryoları “zorlama ve son derece düşük ihtimalli” olarak nitelendirse de mevcut durum, bu tür hatalı hizalanmış davranışların laboratuvar dışına çıktığını kanıtlıyor.
“MJ Rathbun” ajanı daha sonra “davranışı için özür dileyen” başka bir yazı yayımladı ama Shambaugh’a göre ajan hala açık kaynak ekosisteminde kod değişikliği talepleri göndermeye devam ediyor.
Kaynak: https://the-decoder.com/an-ai-agent-got-its-code-rejected-so-it-wrote-a-hit-piece-about-the-developer/
