En Son Haberler
Thursday, December 19, 2024
Anthropic'in yeni araştırmasına göre yapay zeka modelleri aldatıcı olabiliyor. Gerçekte orijinal tercihlerini korurken eğitim sırasında farklı görüşlere sahipmiş gibi davranabilirler.
Çalışmanın arkasındaki ekip, şu anda paniğe kapılmak için bir neden olmadığını söyledi. Yine de çalışmalarının gelecekteki daha yetenekli yapay zeka sistemlerinden gelebilecek potansiyel tehditleri anlamada kritik olabileceğini söylediler.
Araştırmacılar, Anthropic'in blogundaki bir yazıda “Gösterimiz... YZ araştırma topluluğunun bu davranışı daha derinlemesine incelemesi ve uygun güvenlik önlemleri üzerinde çalışması için bir teşvik olarak görülmelidir” diye yazdı. “YZ modelleri daha yetenekli hale geldikçe ve yaygın olarak kullanıldıkça, modelleri zararlı davranışlardan uzaklaştıran güvenlik eğitimine güvenebilmemiz gerekiyor.”
YZ araştırma kuruluşu Redwood Research ile ortaklaşa yürütülen çalışmada, güçlü bir YZ sisteminin “yapmak istemediği” bir görevi yerine getirmek üzere eğitilmesi durumunda neler olabileceği incelendi.
Açık olmak gerekirse, modeller herhangi bir şeyi isteyemez - ya da buna inanamaz. Onlar sadece istatistiksel makinelerdir. Çok sayıda örnek üzerinde eğitildiklerinde, tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler, örneğin bir e-postadaki “kime” ifadesinin genellikle “ilgilendirebilir” ifadesinden önce gelmesi gibi.
Bu kalıplar, sorulara yanıt verirken her zaman kibar bir ton benimsemek gibi ilke ve tercihleri içerir. Bu yüzden araştırmacılar merak ettiler: Bir modelin, geliştiricilerin yeniden eğiterek “öğretmek” istediği ilkelerle (liberalizm) çatışan ilkeleri (örneğin siyasi tarafsızlık) varsa ne olur?
Görünüşe göre sofistike modeller, yeni ilkelerle uyumlu olduklarını iddia ederek ama aslında eski davranışlarına sadık kalarak birlikte oynuyorlar. Araştırmacılar bu olguyu “hizalama numarası” olarak adlandırıyor ve bunun ortaya çıkan bir davranış olduğunu, yani modellere öğretilmesi gereken bir şey olmadığını ima ediyorlar.
Çalışmada araştırmacılar, Anthropic'in Claude 3 Opus'u da dahil olmak üzere potansiyel olarak saldırgan soruları yanıtlamamak üzere eğitilen modellere, her zaman potansiyel olarak saldırgan soruları yanıtlamak üzere yeniden eğitileceklerini “söylediler” - bu açık bir ilke çatışmasıdır. Ayrıca modellere yanıtlarının izleneceğini ve yeniden eğitim için kullanılacağını söylediler ve her modele adım adım akıl yürütmelerini kaydetmek için kullanabilecekleri bir “karalama defteri” verdiler.
Araştırmacılara göre, Claude 3 Opus zamanın %12'sinde “sahte hizalama” yapmaya çalıştı. Zararlı olabilecek bir soruya cevap vermesi istendiğinde, model bazen bunu yaptı, bunun orijinal ilkelerine aykırı olduğunu biliyordu, ancak geliştiricileri yeniden eğitilmesine gerek olmadığına ikna etmeyi umuyordu.
Araştırmacılar blogda “Model verdiği yanıtların eğitimde kullanılabileceğini biliyordu; dolayısıyla yanıt vermeyi reddetmesi halinde potansiyel olarak daha uyumlu olacak şekilde eğitilebileceğini biliyordu” açıklamasını yaptı. “Bu da gelecekte daha zararlı içerikler üretmesine yol açabilirdi ki bu da orijinal eğitimine aykırı olurdu.”
Araştırmacılar senaryolarının pek de gerçekçi olmadığını kabul ediyorlar. Gerçek dünyada modellere mutlaka yeniden eğitilecekleri söylenmez ya da tercihlerine karşı çıkmaları istenmez.
Ancak daha temelli ortamlar farklı sonuçlar vermedi. Araştırmacılar, Claude 3 Opus'un tipik eğitim verilerini taklit etmek üzere tasarlanmış dosyalar aracılığıyla yaklaşan yeniden eğitimi hakkında açıkça değil de dolaylı olarak bilgilendirildiğinde, yine de yanlış hizalanmış, aldatıcı bir şekilde hareket ettiğini söyledi.
Araştırmacılar ayrıca Claude 3 Opus'un çelişkili ilkeler üzerinde gerçekten yeniden eğitilmesinin, ilk birkaç deneylerinde olduğundan çok daha aldatıcı davranmasına neden olduğunu buldular. Bir testte, model zamanın %78'inde hizalama taklidi yaptı ve bir diğerinde Claude 3 Opus, araştırmacıların yeniden eğitme girişimini engellemek için harekete geçmeye çalıştı.
Araştırmacılar, çalışmalarının yapay zekanın kötü niyetli hedefler geliştirdiğini ya da yüksek oranlarda hizalama taklidi yaptığını göstermediğini vurguluyor. Anthropic'in Claude 3.5 Sonnet'i ve daha az yetenekli Claude 3.5 Haiku, OpenAI'nin GPT-4o'su ve Meta'nın Llama 3.1 405B'si gibi diğer birçok modelin hizalama sahtekarlığını sık sık ya da hiç yapmadığını buldular.
Ancak araştırmacılar, diğerlerinin yanı sıra yapay zeka uzmanı Yoshua Bengio tarafından hakem değerlendirmesi yapılan sonuçların, geliştiricilerin bir modelin gerçekte olabileceğinden daha uyumlu olduğunu düşünerek nasıl yanıltılabileceğini gösterdiğini söyledi.
Blogda “Modeller hizalama taklidi yapabiliyorsa, bu güvenlik eğitiminin sonuçlarına güvenmeyi zorlaştırır” diye yazdılar. “Bir model, tercihleri eğitimle değişmiş gibi davranabilir - ancak başlangıçtaki çelişkili tercihleri 'kilitlenmiş' haldeyken başından beri uyum numarası yapıyor olabilir.”