Yapay Zeka Uygulamaları
24/2/2025
Yapay zeka dünyasında benchmark testleri ve bunların nasıl raporlandığı konusundaki tartışmalar giderek daha görünür hale geliyor. Bu hafta, bir OpenAI çalışanı, Elon Musk’ın yapay zeka şirketi xAI’yi, yeni modeli Grok 3 için yanıltıcı benchmark sonuçları yayınlamakla suçladı fakat xAI’nin kurucu ortaklarından Igor Babushkin, şirketin doğru verileri sunduğunu savundu. Gerçek ise bu iki iddia arasında bir yerde olabilir.
xAI, şirket blogunda paylaştığı bir gönderide, Grok 3’ün AIME 2025 benchmark testindeki performansını gösteren bir grafik yayımladı. AIME 2025, son yıllarda YZ modellerinin matematik yeteneklerini test etmek için kullanılan zorlu bir sınav seti olmasına rağmen, bazı uzmanlar bu testin bir YZ benchmarkı olarak geçerliliğini sorguluyor. Buna rağmen, AIME 2025 ve önceki versiyonları genellikle yapay zeka modellerinin matematik becerilerini ölçmek için kullanılıyor.
xAI’nin yayımladığı grafik, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning adlı iki varyantın, OpenAI’nin o3-mini-high modelini AIME 2025 testinde geçtiğini gösterdi. Ancak, OpenAI çalışanları, xAI’nin sunduğu grafikte o3-mini-high modelinin AIME 2025’teki “cons@64” skorunun yer almadığını hemen fark etti ve bu eksikliğe dikkat çekti.
“cons@64” ifadesi, “consensus@64”’ün kısaltmasıdır. Bu yöntem, bir modele her problem için 64 farklı deneme yapma şansı verir ve en sık üretilen cevabı nihai yanıt olarak kabul eder. Tahmin edileceği üzere, bu yöntem YZ modellerinin benchmark skorlarını önemli ölçüde artırabilir. Bir modelin, bu yöntem uygulanmadan elde ettiği skorla kıyaslanması, yanlış bir karşılaştırma yapılmasına yol açabilir.
Gerçekte, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’in AIME 2025 testindeki “@1” (ilk tahmin) skorları, OpenAI’nin o3-mini-high modelinin skorlarının altında kalıyor. Ayrıca, Grok 3 Reasoning Beta modeli, OpenAI’nin o1 modelinin “medium” hesaplama seviyesinde elde ettiği skordan bile biraz daha düşük performans sergiliyor. Ancak xAI, Grok 3’ü “dünyanın en akıllı yapay zekası” olarak tanıtıyor.
xAI’nin kurucu ortağı Igor Babushkin, OpenAI’nin de geçmişte benzer şekilde yanıltıcı grafikler yayınladığını ancak bu grafiklerin kendi modelleri arasındaki karşılaştırmalara dayandığını savundu. Tartışmalara daha tarafsız bir bakış açısıyla yaklaşan bazı YZ araştırmacıları, tüm modellerin cons@64 skorlarını içeren daha kapsamlı bir grafik oluşturdu.
AI araştırmacısı Nathan Lambert, konuya dair yaptığı bir paylaşımda, “En önemli metrik hâlâ bir sır olarak kalıyor: Modellerin en iyi skorlarına ulaşmak için ne kadar hesaplama gücü ve para harcandığı.” diyerek, benchmark testlerinin YZ modellerinin gerçek sınırlarını tam olarak yansıtmadığını belirtti. Bu durum, benchmarkların ne kadar güvenilir ve objektif olduğu sorusunu gündeme getiriyor.
Grok 3 ve OpenAI modelleri arasındaki rekabetin yalnızca grafiklerde görünen rakamlardan ibaret olmadığı, hesaplama maliyetleri, kullanılan veri setleri ve model optimizasyonları gibi birçok faktörün karşılaştırmalara etki ettiği unutulmamalı ancak bu bilgiler genellikle şirketler tarafından açıklanmıyor, bu da benchmark testlerini daha az şeffaf hale getiriyor.
Kaynak: https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/