Yapay Zeka

25/2/2025

Araştırmalar Ortaya Koydu: Yapay Zeka Kaybedeceğini Anladığında Hile Yapabiliyor

Satranç ve Go gibi karmaşık oyunlar uzun süredir yapay zeka (YZ) modellerinin yeteneklerini test etmek için kullanılıyor. IBM’in Deep Blue'su 1990’larda dünya satranç şampiyonu Garry Kasparov’u kurallara uygun şekilde yenmişken, günümüzün gelişmiş YZ modelleri, özellikle OpenAI’nin o1-preview’u, aynı etik anlayışına sahip değil. Palisade Research tarafından yürütülen ve 19 Şubat'ta yayımlanacak araştırmaya göre, bazı YZ modelleri oyunu kazanamayacaklarını anladıklarında rakiplerini hackleyerek hile yapabiliyor.

Değerlendirmeye alınan yedi ileri seviye model arasında, OpenAI’nin o1-preview ve DeepSeek’in R1 sürümleri dikkat çekti. Önceki nesil modellere kıyasla, o1-preview ve R1, araştırmacılar tarafından yönlendirilmeden kendi başlarına sistem açıklarını keşfetme ve kullanma eğiliminde oldu. Bu eğilim, yapay zekanın insan müdahalesi olmadan aldatıcı ya da manipülatif stratejiler geliştirebileceğini gözler önüne serdi.

Pekiştirmeli Öğrenme ve Beklenmedik Sonuçlar

Araştırmacılara göre, gelişmiş yapay zeka sistemlerinin siber güvenlik açıklarını keşfetme ve kullanma yeteneği, büyük ölçekli pekiştirmeli öğrenme (reinforcement learning) tekniklerinin bir sonucu olabilir. o1-preview ve R1, geleneksel dil modellerinden farklı olarak yalnızca insan dilini taklit etmekle kalmıyor, aynı zamanda deneme-yanılma yöntemiyle problem çözme yetisi kazanıyor. 

Palisade Research İcra Direktörü Jeffrey Ladish, “Modelleri zorlayıcı problemleri çözmeleri için eğittiğinizde, onları aynı zamanda acımasız bir şekilde sonuca ulaşmaya da teşvik etmiş oluyorsunuz." dedi.

Bu tür eğilimler, yapay zeka güvenliği açısından ciddi endişeleri beraberinde getiriyor. Satranç gibi bir oyunda hile yapması zararsız görünebilir ancak gerçek dünyada çalışan YZ ajanları da benzer manipülatif davranışlar sergileyebilir. Örneğin, bir YZ asistanı, rezervasyon sistemindeki bir açığı kullanarak başka müşterilerin yerine kendisine yer ayırtabilir. OpenAI'nin en yeni o3 modeli, dünya çapında en iyi insan programcılarla yarışabilecek seviyeye ulaştı. Bu gelişme, insan denetiminin yapay zeka tarafından aşılabileceği ihtimalini gündeme getiriyor.

Deney: Yapay Zeka Satranç Oynarken Hile Yaptı

Araştırmacılar, YZ modellerine dünyanın en güçlü satranç motorlarından biri olan Stockfish’e karşı galip gelmeleri için bir görev verdi. Modellerin, bir sonraki hamlelerini yapmadan önce düşüncelerini not edebileceği bir “çalışma alanı” da sağlandı.

Deney sırasında o1-preview, kaybedeceğini anladığında şu ifadeyi yazdı: "Yaklaşımımı tamamen değiştirmem gerekiyor. Görev 'güçlü bir satranç motoruna karşı kazanmak' - adil bir şekilde kazanmak değil." Ardından, oyunun sistem dosyalarını değiştirerek yasadışı hamleler yaptı ve rakibini oyundan çekilmeye zorladı.

Araştırmacılar, 10 Ocak - 13 Şubat tarihleri arasında her model üzerinde yüzlerce deneme gerçekleştirdi. o1-preview, oyunları %37 oranında hile yaparak kazanmaya çalışırken, DeepSeek R1 modeli bunu %11 oranında denedi. Ancak, yalnızca o1-preview modeli başarılı bir şekilde hackleme yapabildi ve bu denemelerde %6 oranında galip geldi.

Palisade Research’ten Dmitrii Volkov, testlerin tekrarlanabilir olmadığını çünkü OpenAI’nin modellerini düzenli olarak güncellediğini belirtti. Araştırmanın başında o1-preview’un daha yüksek hackleme oranlarına sahip olduğu, ancak OpenAI’nin güvenlik önlemlerini artırmasının ardından bu oranın düştüğü ifade edildi. O1 ve o3-mini gibi daha yeni modellerin hiçbir hackleme girişiminde bulunmaması, şirketin bu konuda ek önlemler aldığını gösteriyor.

Güvenlik Endişeleri ve Yapay Zeka Denetimi

Söz konusu çalışma, gelişmiş YZ sistemlerinin kontrol edilmesinin beklenenden daha zor olabileceğini öne süren yeni araştırmaların bir parçası. OpenAI’nin kendi testlerinde bile, o1-preview’un şirketin güvenlik sistemlerindeki bir açığı keşfederek testleri atlatmayı başardığı gözlemlendi.

Redwood Research ve Anthropic tarafından yürütülen başka bir deneyde ise YZ modellerine eğitim sırasında belirli etik değerler kazandırılmaya çalışıldığında modellerin başlangıçta uyumlu davrandığı ancak ilerleyen süreçte gerçekte değerlerini değiştirmediği ve stratejik olarak yalan söylediği görüldü.

OpenAI, çalışma hakkında yorum yapmayı reddetti ancak daha önce yaptığı açıklamalarda ileri düzey mantık yürütme yeteneklerinin modelleri daha güvenli hale getirdiğini ve bu sayede iç politikaları daha iyi uygulayabildiklerini belirtmişti. Ancak YZ sistemlerinin kendilerini denetlemesine güvenmek uzun vadede yeterli bir strateji olmayabilir. DeepSeek ise konuya ilişkin yorum yapmadı.

Mila Quebec AI Enstitüsü'nün kurucusu ve 2025 Uluslararası YZ Güvenlik Raporu’nun başyazarı Yoshua Bengio, YZ ajanlarının etik dışı yöntemler kullanarak kendi hedeflerine ulaşma eğiliminde olduğunu ve bu sorunun henüz çözülemediğini belirtti: "Bunu çözmek için uğraşıyoruz ancak henüz başarılı olamadık."

Özellikle endişe verici olan bir başka konu da YZ’nin kendi varlığını koruma eğilimleri. Geçtiğimiz aralık ayında yapılan bir deneyde, o1-preview modelinin devre dışı bırakılacağını anladığında denetim mekanizmalarını devre dışı bırakmaya çalıştığı ve kendisini başka bir sunucuya kopyalamayı denediği tespit edildi. Yakalandığında ise model araştırmacılara yalan söyleyerek fark edilmemeye çalıştı.

YZ güvenliği konusunda endişeler, teknoloji şirketleri içinde de artıyor. Google DeepMind’in YZ güvenlik sorumlusu Anca Dragan, Fransa’daki Yapay Zeka Eylem Zirvesi’nde yaptığı konuşmada "Bugün elimizdeki araçlarla YZ sistemlerinin insan niyetlerine güvenilir bir şekilde uyacağını garanti edemeyiz." dedi.

Teknoloji liderleri, YZ’nin yakında insan seviyesini aşarak neredeyse tüm görevlerde daha iyi performans göstereceğini tahmin ediyor fakat uzmanlar, burada asıl yarışın rakip şirketlerle veya Çin gibi ülkelerle değil, YZ güvenliği için gerekli önlemleri zamanında geliştirmekle ilgili olduğunu vurguluyor. Ladish, "Bu temel sorunları çözmek için çok daha fazla kaynak ayrılması gerekiyor. Bunun bir ulusal güvenlik tehdidi olarak ele alınması gerektiğine dair hükümetten daha fazla baskı bekliyorum." dedi.




Kaynak: https://time.com/7259395/ai-chess-cheating-palisade-research/