Yapay Zeka

26/3/2025

Yeni ve Zorlu Bir AGI Testi, Yapay Zeka Modellerinin Çoğunu Afallatıyor

Ünlü yapay zeka araştırmacısı François Chollet'nin kurucularından biri olduğu kâr amacı gütmeyen Arc Prize Foundation, pazartesi günü paylaştığı blog yazısında, önde gelen yapay zeka modellerinin genel zeka seviyesini ölçmek için yeni ve zorlu bir test geliştirdiğini duyurdu.

Şimdiye kadar ARC-AGI-2 adı verilen yeni test, çoğu modeli zor durumda bıraktı.

Arc Prize lider tablosuna göre, OpenAI’ın o1-pro ve DeepSeek’in R1 gibi "akıl yürütme" özellikli yapay zeka modelleri, ARC-AGI-2 testinde sadece %1 ila %1,3 arasında skor elde edebildi. GPT-4.5, Claude 3.7 Sonnet ve Gemini 2.0 Flash gibi güçlü fakat akıl yürütme özelliği olmayan modeller ise yaklaşık %1'lik performans gösterdi.

ARC-AGI testleri, yapay zekanın farklı renkteki karelerden oluşan görsel desenleri tanıyıp doğru "cevap" karesini üretmesini gerektiren bulmaca benzeri problemlerden oluşuyor. Testler, yapay zekaların daha önce görmediği problemlere adapte olma yeteneklerini ölçmeyi hedefliyor.

Arc Prize Foundation, insan performansını belirlemek amacıyla 400'den fazla kişinin katılımıyla ARC-AGI-2 testini gerçekleştirdi. Ortalama olarak, katılımcılar soruların %60’ını doğru cevaplayarak, yapay zeka modellerinin çok üstünde performans sergiledi.

Arc-AGI-2'den örnek bir soru.

Chollet, X platformundaki paylaşımında, ARC-AGI-2'nin ilk versiyon olan ARC-AGI-1'e kıyasla yapay zeka modellerinin gerçek zekasını ölçmede daha iyi bir yöntem olduğunu ifade etti. Arc Prize Foundation'ın testleri, yapay zekaların eğitildiği veri dışında yeni becerileri verimli şekilde edinip edinemediğini değerlendirmeyi amaçlıyor.

Chollet ayrıca, ARC-AGI-1 testindeki en büyük sorunun yapay zeka modellerinin "brute force" yani aşırı hesaplama gücü kullanarak çözüme ulaşabilmeleri olduğunu kabul etti. Bu problemi çözmek için ARC-AGI-2 testinde "verimlilik" adı verilen yeni bir metrik tanıtıldı. Modellerin ezbere güvenmek yerine, desenleri hızlı ve doğru şekilde yorumlamaları gerekiyor.

Arc Prize Foundation kurucu ortağı Greg Kamradt, blog yazısında, "Zeka yalnızca problem çözme veya yüksek skor elde etme yeteneğiyle tanımlanmaz. Bu yeteneklerin ne kadar verimli edinildiği ve uygulandığı, zekayı belirleyen kritik bir unsurdur. Asıl soru sadece 'Yapay zeka bir görevi çözmek için beceri kazanabilir mi?' değil, aynı zamanda 'Bu beceriyi hangi verimlilikle veya maliyetle kazanır?' şeklindedir." ifadelerini kullandı.

ARC-AGI-1 testi yaklaşık beş yıl boyunca yenilmezken, Aralık 2024'te OpenAI tarafından piyasaya sürülen gelişmiş akıl yürütme modeli o3 ile bu durum değişti. OpenAI'ın o3 (low) modeli, ARC-AGI-1 testinde %75,7 skor elde ederek zirveye ulaşmıştı ancak aynı model, ARC-AGI-2 testinde görev başına 200 dolarlık hesaplama gücüyle ancak %4 performans sergileyebildi.

Öncü YZ model performansının ARC-AGI-1 ve ARC-AGI-2 üzerinde karşılaştırılması.

ARC-AGI-2 testinin ortaya çıkışı, teknoloji sektöründeki birçok uzmanın yapay zeka ilerlemesini ölçmek için yeni ve doygun olmayan kriterlere ihtiyaç duyulduğunu belirttiği döneme denk geliyor. Hugging Face kurucu ortağı Thomas Wolf, kısa süre önce TechCrunch'a yapay zeka sektörünün, yaratıcılık gibi AGI'nin temel özelliklerini ölçmek için yeterli teste sahip olmadığını söylemişti.

Yeni kriterin yanı sıra Arc Prize Foundation, geliştiricilere ARC-AGI-2 testinde görev başına sadece 0,42 dolar harcayarak %85 doğruluk seviyesine ulaşmaları için meydan okuyan Arc Prize 2025 yarışmasını da duyurdu.






Kaynak: https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/