xAI, Grok 3'ün Benchmark Sonuçları Hakkında Yalan mı Söyledi?

Yapay zeka dünyasında benchmark testleri ve bunların nasıl raporlandığı konusundaki tartışmalar giderek daha görünür hale geliyor. Bu hafta, bir OpenAI çalışanı, Elon Musk’ın yapay zeka şirketi xAI’yi, yeni modeli Grok 3 için yanıltıcı benchmark sonuçları yayınlamakla suçladı fakat xAI’nin kurucu ortaklarından Igor Babushkin, şirketin doğru verileri sunduğunu savundu. Gerçek ise bu iki iddia arasında bir yerde olabilir.

xAI, şirket blogunda paylaştığı bir gönderide, Grok 3’ün AIME 2025 benchmark testindeki performansını gösteren bir grafik yayımladı. AIME 2025, son yıllarda YZ modellerinin matematik yeteneklerini test etmek için kullanılan zorlu bir sınav seti olmasına rağmen, bazı uzmanlar bu testin bir YZ benchmarkı olarak geçerliliğini sorguluyor. Buna rağmen, AIME 2025 ve önceki versiyonları genellikle yapay zeka modellerinin matematik becerilerini ölçmek için kullanılıyor.

xAI’nin yayımladığı grafik, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning adlı iki varyantın, OpenAI’nin o3-mini-high modelini AIME 2025 testinde geçtiğini gösterdi. Ancak, OpenAI çalışanları, xAI’nin sunduğu grafikte o3-mini-high modelinin AIME 2025’teki “cons@64” skorunun yer almadığını hemen fark etti ve bu eksikliğe dikkat çekti.

“cons@64” Nedir ve Neden Önemli?

“cons@64” ifadesi, “consensus@64”’ün kısaltmasıdır. Bu yöntem, bir modele her problem için 64 farklı deneme yapma şansı verir ve en sık üretilen cevabı nihai yanıt olarak kabul eder. Tahmin edileceği üzere, bu yöntem YZ modellerinin benchmark skorlarını önemli ölçüde artırabilir. Bir modelin, bu yöntem uygulanmadan elde ettiği skorla kıyaslanması, yanlış bir karşılaştırma yapılmasına yol açabilir.

Gerçekte, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’in AIME 2025 testindeki “@1” (ilk tahmin) skorları, OpenAI’nin o3-mini-high modelinin skorlarının altında kalıyor. Ayrıca, Grok 3 Reasoning Beta modeli, OpenAI’nin o1 modelinin “medium” hesaplama seviyesinde elde ettiği skordan bile biraz daha düşük performans sergiliyor. Ancak xAI, Grok 3’ü “dünyanın en akıllı yapay zekası” olarak tanıtıyor.

xAI’nin kurucu ortağı Igor Babushkin, OpenAI’nin de geçmişte benzer şekilde yanıltıcı grafikler yayınladığını ancak bu grafiklerin kendi modelleri arasındaki karşılaştırmalara dayandığını savundu. Tartışmalara daha tarafsız bir bakış açısıyla yaklaşan bazı YZ araştırmacıları, tüm modellerin cons@64 skorlarını içeren daha kapsamlı bir grafik oluşturdu.

Benchmarklar Ne Kadar Güvenilir?

AI araştırmacısı Nathan Lambert, konuya dair yaptığı bir paylaşımda, “En önemli metrik hâlâ bir sır olarak kalıyor: Modellerin en iyi skorlarına ulaşmak için ne kadar hesaplama gücü ve para harcandığı.” diyerek, benchmark testlerinin YZ modellerinin gerçek sınırlarını tam olarak yansıtmadığını belirtti. Bu durum, benchmarkların ne kadar güvenilir ve objektif olduğu sorusunu gündeme getiriyor.

Grok 3 ve OpenAI modelleri arasındaki rekabetin yalnızca grafiklerde görünen rakamlardan ibaret olmadığı, hesaplama maliyetleri, kullanılan veri setleri ve model optimizasyonları gibi birçok faktörün karşılaştırmalara etki ettiği unutulmamalı ancak bu bilgiler genellikle şirketler tarafından açıklanmıyor, bu da benchmark testlerini daha az şeffaf hale getiriyor.

‍

Kaynak: https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/

İlginizi Çekebilir

Yapay Zeka Uygulamaları

Apr 2025

ByteDance’ten Runway’e Yanıt: DreamActor-M1 ile Yüz İfadelerinden Duygulara Kadar Gelişmiş Yapay Zeka Animasyon Teknolojisi

Yapay Zeka Uygulamaları

Apr 2025

Midjourney, V7 Görsel Modelinin Alfa Sürümünü Yayınladı: Daha Akıllı Metin İşleme, Yeni Taslak Modu ve Gelişmiş El Çizimi Yeteneği

Yapay Zeka Uygulamaları

Apr 2025

Meta, Llama 4 ile Yapay Zeka Yarışında Vites Yükseltti: Yeni Nesil Modeller Yayınlandı

Yapay Zeka Uygulamaları

Apr 2025

Amazon, Web Tarayıcısını Kontrol Edebilen Yapay Zeka Aracısı Nova Act’i Tanıttı

Yapay Zeka Uygulamaları

Mar 2025

Ideogram, 3.0 Sürümünü Tanıttı

Bu Websitesi'nin Dönüşmleri

Pinetent Digital Agency

xAI, Grok 3'ün Benchmark Sonuçları Hakkında Yalan mı Söyledi?

“cons@64” Nedir ve Neden Önemli?

Benchmarklar Ne Kadar Güvenilir?

İlginizi Çekebilir

ByteDance’ten Runway’e Yanıt: DreamActor-M1 ile Yüz İfadelerinden Duygulara Kadar Gelişmiş Yapay Zeka Animasyon Teknolojisi

Midjourney, V7 Görsel Modelinin Alfa Sürümünü Yayınladı: Daha Akıllı Metin İşleme, Yeni Taslak Modu ve Gelişmiş El Çizimi Yeteneği

Meta, Llama 4 ile Yapay Zeka Yarışında Vites Yükseltti: Yeni Nesil Modeller Yayınlandı

Amazon, Web Tarayıcısını Kontrol Edebilen Yapay Zeka Aracısı Nova Act’i Tanıttı

Ideogram, 3.0 Sürümünü Tanıttı

Kategoriler

Kurumsal

En Önce Sizin Haberiniz Olsun!