1. Anasayfa
  2. Yapay Zeka

Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti

Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti
0

Yapay zeka kıyaslamalarında zirveye yerleşmenin genellikle en iyi dört öncü YZ laboratuvarının tekelinde olduğu düşünülür ancak Humanity’s Last Exam kıyaslamasında şaşırtıcı yeni bir isim ortaya çıktı.

Video konferans platformu Zoom, Humanity’s Last Exam (HLE) tam set kıyaslamasında %48,1‘lik son teknoloji bir skor elde ettiğini ve daha önce %45,8 ile en üst sırada yer alan araçlara sahip Google‘ın Gemini 3 Pro modelini geride bıraktığını duyurdu. 2,3 puanlık iyileşme, YZ araştırmalarından ziyade görüntülü görüşmelerle tanınan bir şirket için önemli bir başarıya işaret ediyor.

Humanity’s Last Exam Testini Anlamak

Humanity’s Last Exam kıyaslaması, yapay zekadaki en titiz testlerden birini temsil eder ve modelleri uzman seviyesinde bilgi ile gelişmiş akıl yürütme gerektiren çeşitli alanlarda değerlendirmek için tasarlanmıştır. Kalıp eşleştirmeye dayanabilen daha basit kıyaslamaların aksine HLE, derinlemesine kavrayış, çok adımlı akıl yürütme ve karmaşık, birbirine bağlı problemler arasında bilgiyi sentezleme yeteneği talep eder.

Küresel ölçekte konu uzmanları tarafından geliştirilen kıyaslama, zorlu entelektüel görevlerde YZ‘nin insan seviyesindeki performansa doğru ilerlemesini ölçmek için çok önemli bir metrik haline geldi. Nispeten düşük puanlar (en iyi performans gösteren bile %48 seviyesini zar zor geçmektedir) problemlerin ne kadar zor olduğunun altını çiziyor.

Zoom’un Birleşik YZ Yaklaşımı

Şirketin başarısı, tek bir sisteme güvenmek yerine birden fazla dil modelini kombine eden ve “birleşik YZ yaklaşımı” olarak adlandırdığı yöntemden kaynaklanıyor. Zoom Baş Teknoloji Sorumlusu ve eski bir Microsoft Teknik Üyesi olan Xuedong Huang‘a göre söz konusu strateji, yeni mimari inovasyonlar sunarken farklı modellerin benzersiz güçlü yönlerinden yararlanıyor.

Zoom‘un sisteminin merkezinde, keşifsel akıl yürütmeyi titiz bir doğrulama ile dengeleyen ajanlı bir iş akışı olan “keşfet-doğrula-birleştir” (explore-verify-federate) stratejisi yer alıyor. Yöntem, kapsamlı akıl yürütme izleri oluşturmak yerine en bilgilendirici akıl yürütme yollarını stratejik olarak tanımlıyor ve izliyor.

Birleşik çerçeve, Zoom‘un diyalektik iş birliği olarak tanımladığı yöntemle akıl yürütmeyi oluşturmak, sorgulamak ve iyileştirmek için çeşitli modelleri koordine eder. Süreç her modelin kendine özgü güçlü yönleriyle katkıda bulunmasını sağlarken kapsamlı bir doğrulama aşaması, en doğru çözümü belirlemek için tüm bağlamı entegre eder.

Zoom‘un tescilli “Z-scorer” sistemi, optimum performans için şirketin kendi küçük dil modellerinin yanı sıra gelişmiş açık kaynaklı ve kapalı kaynaklı seçenekler de dahil olmak üzere çeşitli modellerden gelen çıktıları seçer veya iyileştirir.

İskeleleme (Scaffolding) Kazanımları

Bazı dahili modeller, iş akışları ve ince ayarlarla birlikte üçüncü taraf modelleri iskelelemek, kıyaslamalarda etkileyici sonuçlar gösteren yeni bir teknik gibi görünüyor. Hafta başında Poetiq, üçüncü taraf büyük dil modellerini (LLM) kullanarak ARC-AGI 2 kıyaslamasında son teknoloji bir performans sergilemişti ve yarı fiyatına Gemini 3 Pro‘dan daha iyi sonuçlar sunmuştu.

Gerçek Dünya Uygulamaları

Huang, söz konusu atılımın Zoom kullanıcıları için daha doğru toplantı özetleri ve aksiyon maddesi çıkarma, gelişmiş platformlar arası bilgi alma ve sentezleme, ajanlı iş akışı otomasyonu yoluyla karmaşık, çok adımlı iş süreçlerinin daha iyi ele alınması dahil olmak üzere hemen pratik etkileri olduğunu vurguladı.

Şirket, başarısını YZ geliştirmesi için rekabetçi bir vizyondan ziyade iş birlikçi bir vizyonun parçası olarak konumlandırdı. Huang, sonuçları duyururken şunları yazdı:

“YZ’nin geleceği izolasyonda değil, akıllı orkestrasyonda yatmaktadır.”

En iyi YZ laboratuvarları sınır modelleriyle sınırları zorlamaya devam ederken Zoom‘un başarısı, yenilikçi mimari yaklaşımların (birden fazla modeli sofistike yollarla birleştirmenin), sektörün en iyi kaynaklarına sahip araştırma kuruluşlarından gelenler de dahil olmak üzere herhangi bir tekil sistemin performansına potansiyel olarak rakip olabileceğini veya onu aşabileceğini gösteriyor.

Kaynak: https://officechai.com/ai/video-app-zoom-shows-surprising-result-by-topping-humanitys-last-exam-benchmark-beats-gemini-3-pro/
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 0
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir