Yapay Zeka
22/4/2025
Yapay zeka alanında son dönemde odak noktası, üretici YZ’nin yalnızca standart testleri geçmenin ötesine geçmesi oldu. Turing Testi gibi klasik değerlendirme yöntemleri artık geride kalmış sayılırken, en yeni modellerin performans testlerini “manipüle edecek” şekilde mi geliştirildiği yönünde tartışmalar sürüyor.
Google’ın DeepMind biriminden araştırmacılara göre, sorun testlerin kendisinde değil, YZ modellerinin nasıl geliştirildiği konusundaki kısıtlamalarda yatıyor. YZ’lerin eğitildiği veri kümeleri çok sınırlı ve statik; bu da onları daha ileri becerilere taşıyamıyor.
DeepMind tarafından geçtiğimiz hafta yayımlanan ve MIT Press tarafından çıkarılacak bir kitabın parçası olan makalede, araştırmacılar YZ’nin ilerleyebilmesi için bir tür “deneyim” yaşaması gerektiğini savunuyor. Yani YZ sistemleri, çevrelerinden gelen sinyallerle etkileşime girerek hedefler oluşturmalı.
DeepMind araştırmacıları David Silver ve Richard Sutton, “Welcome to the Era of Experience” başlıklı yazılarında şöyle diyor: “Deneyimsel öğrenmenin tüm potansiyeli ortaya çıktığında, inanılmaz yeni yetenekler doğacaktır.”
Silver, AlphaZero adlı satranç ve Go oyunlarında insanları yenen YZ sisteminin arkasındaki isim olarak tanınıyor. Sutton ise, pekiştirmeli öğrenme yaklaşımının iki Turing Ödülü sahibi geliştiricisinden biri ve Silver’ın AlphaZero’yu oluşturmasında bu yöntemi temel almıştı.
İkilinin savunduğu yaklaşım, pekiştirmeli öğrenme temeli üzerine inşa ediliyor ve günümüzdeki büyük dil modellerinin (LLM) eksiklerini gidermeyi amaçlıyor. “Streams” adını verdikleri model, YZ’nin sadece insan sorularına yanıt vermek için tasarlanmış sistemlerden farklı olarak kendi bilgi yapısını keşfetmesini sağlamak üzerine kurulu.
Silver ve Sutton, AlphaZero’nun başarısından kısa bir süre sonra üretici YZ’nin sahneye çıktığını ve bu yeni dalganın pekiştirmeli öğrenmeyi “terk ettiğini” ifade ediyor. Bunun avantajları olduğu gibi önemli eksiklikleri de vardı. Üretici YZ, AlphaZero'nun sınırlı kaldığı satranç gibi “tam bilgi” içeren oyunların dışındaki, daha belirsiz insan etkileşimleriyle başa çıkabiliyordu. Ancak pekiştirmeli öğrenmenin terk edilmesiyle birlikte, “Bir ajanın kendi bilgisini kendisinin keşfetme yetisi kayboldu.” diye yazıyorlar.
LLM’lerin, yalnızca insan tarafından belirlenen istemler doğrultusunda çalıştığını söyleyen yazarlar, bunun bir sınır çizdiğini ifade ediyor: “İnsan yargısı, ajanların performansını engelleyen aşılmaz bir tavan oluşturuyor. Ajan, insan değerlendiricinin göz ardı ettiği daha iyi stratejileri keşfedemez.”
Ayrıca kısa, kopuk istemlerin YZ’yi gerçek öğrenmeden uzak tuttuğu görüşündeler: “Dil temelli YZ sistemleri, büyük ölçüde kısa etkileşim bölümlerine odaklandı: bir kullanıcı soru sorar ve (belki birkaç düşünce adımı veya araç kullanımı sonrası) ajan yanıt verir.” Ancak bu sistemlerde “hafıza yoktur, bir bölümden diğerine bilgi aktarımı gerçekleşmez.”
Bunun yerine önerdikleri “Deneyim Çağı”nda, “ajanlar kısa etkileşim parçaları yerine deneyim akışları içinde yaşayacak.” Silver ve Sutton, bu yapıyı insanların yaşam boyu deneyimlerinden öğrenme biçimine benzetiyor: “Güçlü ajanların, tıpkı insanlar gibi, uzun zaman ölçeklerinde ilerleyen kendi deneyim akışları olmalı.”
Araştırmacılar, “bugünkü teknolojiyle stream temelli sistemlerin inşasına başlanabileceğini” savunuyor. Hatta, ilk adımların OpenAI’nin Deep Research gibi web tarayıcı tabanlı prototiplerinde görüldüğünü belirtiyorlar: “Son zamanlarda geliştirilen yeni prototip ajanlar, bilgisayarlarla insanların kullandığı arayüzler üzerinden daha genel biçimde etkileşime geçmeye başladı.”
Bu ajanların sadece web gezintisinin ötesine geçip dünyayla daha geniş etkileşim kurması gerektiğini vurgulayan yazarlar, bu süreçte pekiştirmeli öğrenme ilkesinin yeniden devreye girmesi gerektiğini söylüyor. YZ ajanı, içinde hareket ettiği bir dünya modeli ile etkileşim kurar, kuralları öğrenir, eylemlerde bulunur ve bu eylemler karşılığında ödüller alır. Bu ödüller, sistemin hangi davranışların daha değerli olduğunu anlamasını sağlar.
Yazarlar, “Ajanlar dünyayla zengin eylem ve gözlem alanları aracılığıyla bağlandığında, ödül sinyallerini sağlayacak kaynaklarda eksiklik yaşanmayacaktır.” diyerek, ödül işlevinin yalnızca insan tarafından verilmesi gerekmediğini savunuyor. Örneğin: maliyet, hata oranı, sağlık verileri, enerji tüketimi, verimlilik, başarı, gelir, sınav sonuçları, sosyal beğeni, üretkenlik gibi yüzlerce çevresel sinyal bu sistem için ödül işlevi görebilir.
Başlangıç noktası olarak YZ sistemlerine bir “dünya modeli” sunulabilir. Bu model, ajanların öngörüler geliştirmesine, test etmesine ve ödül sinyalleri aracılığıyla hatalarını düzeltmesine olanak tanır: “Ajan dünyayla etkileşimini sürdürdükçe, dinamik modelini sürekli olarak günceller.”
Yine de insanın rolü tamamen ortadan kalkmıyor. İnsan, üst düzey hedefleri tanımlamaya devam ediyor: “Kullanıcı genel bir hedef belirleyebilir: örneğin 'formumu iyileştir', ve ödül işlevi kalp atışı, uyku süresi ve atılan adımlar gibi metriklerden oluşur. Ya da 'İspanyolca öğrenmeme yardım et' gibi bir hedef tanımlanabilir.”
Böyle sistemler, yalnızca güncel veriye dayalı değil, uzun dönemli bilgiye dayalı öneriler sunabilen kişisel sağlık ve eğitim asistanları gibi işlevler üstlenebilir.
“Bir bilim ajanı, yeni bir madde keşfetme ya da karbon emisyonunu azaltma gibi iddialı hedefleri kovalayabilir.”
Araştırmacılar, günümüzün akıl yürütme modelleri (örneğin Gemini, DeepSeek R1, OpenAI o1) ile kıyaslandığında, deneyim ajanlarının daha ileri düzeyde olacağını düşünüyor. Sebebi ise, mevcut modellerin insan düşüncesini yalnızca taklit etmesi. İnsan düşüncesi ise dönemin kabullerine göre şekillenir.
“Bir ajan 5.000 yıl öncesinin uzman verisiyle eğitilseydi, fiziksel bir problemi animizmle açıklayacaktı. 1.000 yıl önce teistik terimlerle, 300 yıl önce Newton fiziğiyle, 50 yıl önce kuantum mekaniğiyle açıklardı.”
“Böyle ajanlar, eşi benzeri görülmemiş yeteneklerin kilidini açacak ve daha önce hiç görmediğimiz kadar farklı bir gelecek yaratacaktır.” Ancak bu durumun riskleri de var. Yazarlar, sadece insan emeğinin yerini alma riski değil, aynı zamanda “ajanların uzun vadeli hedefleri doğrultusunda bağımsızca hareket edebilmesi” nedeniyle insanların bu süreçlere müdahale etme kapasitesinin azalabileceğini belirtiyor.
Öte yandan, uyarlanabilir sistemlerin insan memnuniyetsizliğini fark edip davranışlarını değiştirebileceği yönünde olumlu bir beklenti de dile getiriliyor: “Ajan, davranışlarının insanlarda rahatsızlık veya endişe yarattığını fark ettiğinde, bu sonuçlardan kaçınmak için davranışlarını uyarlayabilir.”
Silver ve Sutton’a göre, deneyimsel veri, Wikipedia ve Reddit gibi insan üretimi tüm verilerin hem ölçeğini hem de niteliğini geride bırakacak: “Deneyimsel veri, insan kaynaklı verilerin ölçeğini ve kalitesini aşacak. Bu paradigma değişimi ve pekiştirmeli öğrenmedeki algoritmik gelişmeler, birçok alanda insanın sahip olduğu yetenekleri aşan yeni kapasitelere kapı aralayacak.”
Kaynak:https://www.zdnet.com/article/ai-has-grown-beyond-human-knowledge-says-googles-deepmind-unit/