Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti

Nuvem tarafından

6 ay önce 188 kez okundu Okuma süresi: 3dk, 42sn

Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti

Yapay zeka kıyaslamalarında zirveye yerleşmenin genellikle en iyi dört öncü YZ laboratuvarının tekelinde olduğu düşünülür ancak Humanity’s Last Exam kıyaslamasında şaşırtıcı yeni bir isim ortaya çıktı.

Video konferans platformu Zoom, Humanity’s Last Exam (HLE) tam set kıyaslamasında %48,1‘lik son teknoloji bir skor elde ettiğini ve daha önce %45,8 ile en üst sırada yer alan araçlara sahip Google‘ın Gemini 3 Pro modelini geride bıraktığını duyurdu. 2,3 puanlık iyileşme, YZ araştırmalarından ziyade görüntülü görüşmelerle tanınan bir şirket için önemli bir başarıya işaret ediyor.

Humanity’s Last Exam Testini Anlamak

Humanity’s Last Exam kıyaslaması, yapay zekadaki en titiz testlerden birini temsil eder ve modelleri uzman seviyesinde bilgi ile gelişmiş akıl yürütme gerektiren çeşitli alanlarda değerlendirmek için tasarlanmıştır. Kalıp eşleştirmeye dayanabilen daha basit kıyaslamaların aksine HLE, derinlemesine kavrayış, çok adımlı akıl yürütme ve karmaşık, birbirine bağlı problemler arasında bilgiyi sentezleme yeteneği talep eder.

Küresel ölçekte konu uzmanları tarafından geliştirilen kıyaslama, zorlu entelektüel görevlerde YZ‘nin insan seviyesindeki performansa doğru ilerlemesini ölçmek için çok önemli bir metrik haline geldi. Nispeten düşük puanlar (en iyi performans gösteren bile %48 seviyesini zar zor geçmektedir) problemlerin ne kadar zor olduğunun altını çiziyor.

Zoom’un Birleşik YZ Yaklaşımı

Şirketin başarısı, tek bir sisteme güvenmek yerine birden fazla dil modelini kombine eden ve “birleşik YZ yaklaşımı” olarak adlandırdığı yöntemden kaynaklanıyor. Zoom Baş Teknoloji Sorumlusu ve eski bir Microsoft Teknik Üyesi olan Xuedong Huang‘a göre söz konusu strateji, yeni mimari inovasyonlar sunarken farklı modellerin benzersiz güçlü yönlerinden yararlanıyor.

Zoom‘un sisteminin merkezinde, keşifsel akıl yürütmeyi titiz bir doğrulama ile dengeleyen ajanlı bir iş akışı olan “keşfet-doğrula-birleştir” (explore-verify-federate) stratejisi yer alıyor. Yöntem, kapsamlı akıl yürütme izleri oluşturmak yerine en bilgilendirici akıl yürütme yollarını stratejik olarak tanımlıyor ve izliyor.

Birleşik çerçeve, Zoom‘un diyalektik iş birliği olarak tanımladığı yöntemle akıl yürütmeyi oluşturmak, sorgulamak ve iyileştirmek için çeşitli modelleri koordine eder. Süreç her modelin kendine özgü güçlü yönleriyle katkıda bulunmasını sağlarken kapsamlı bir doğrulama aşaması, en doğru çözümü belirlemek için tüm bağlamı entegre eder.

Zoom‘un tescilli “Z-scorer” sistemi, optimum performans için şirketin kendi küçük dil modellerinin yanı sıra gelişmiş açık kaynaklı ve kapalı kaynaklı seçenekler de dahil olmak üzere çeşitli modellerden gelen çıktıları seçer veya iyileştirir.

İskeleleme (Scaffolding) Kazanımları

Bazı dahili modeller, iş akışları ve ince ayarlarla birlikte üçüncü taraf modelleri iskelelemek, kıyaslamalarda etkileyici sonuçlar gösteren yeni bir teknik gibi görünüyor. Hafta başında Poetiq, üçüncü taraf büyük dil modellerini (LLM) kullanarak ARC-AGI 2 kıyaslamasında son teknoloji bir performans sergilemişti ve yarı fiyatına Gemini 3 Pro‘dan daha iyi sonuçlar sunmuştu.

Gerçek Dünya Uygulamaları

Huang, söz konusu atılımın Zoom kullanıcıları için daha doğru toplantı özetleri ve aksiyon maddesi çıkarma, gelişmiş platformlar arası bilgi alma ve sentezleme, ajanlı iş akışı otomasyonu yoluyla karmaşık, çok adımlı iş süreçlerinin daha iyi ele alınması dahil olmak üzere hemen pratik etkileri olduğunu vurguladı.

Şirket, başarısını YZ geliştirmesi için rekabetçi bir vizyondan ziyade iş birlikçi bir vizyonun parçası olarak konumlandırdı. Huang, sonuçları duyururken şunları yazdı:

“YZ’nin geleceği izolasyonda değil, akıllı orkestrasyonda yatmaktadır.”

En iyi YZ laboratuvarları sınır modelleriyle sınırları zorlamaya devam ederken Zoom‘un başarısı, yenilikçi mimari yaklaşımların (birden fazla modeli sofistike yollarla birleştirmenin), sektörün en iyi kaynaklarına sahip araştırma kuruluşlarından gelenler de dahil olmak üzere herhangi bir tekil sistemin performansına potansiyel olarak rakip olabileceğini veya onu aşabileceğini gösteriyor.

Kaynak: https://officechai.com/ai/video-app-zoom-shows-surprising-result-by-topping-humanitys-last-exam-benchmark-beats-gemini-3-pro/

Post Views: 188

Bu Yazıya Tepkiniz Ne Oldu?

0

Beğendim
0

Alkışlıyorum
0

Eğlendim
0

Düşünceliyim
0

İğrendim
0

Sevdim
0

Çok Kızdım

Nuvem

Yazarın Profili

Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti

Humanity’s Last Exam Testini Anlamak

Zoom’un Birleşik YZ Yaklaşımı

İskeleleme (Scaffolding) Kazanımları

Gerçek Dünya Uygulamaları

Yorum Yap İptal

Çin’in Robotik Yılanları Elektrik Hatlarında Arıza Avına Çıkıyor

Waymo Aylık Ödeme Hizmeti Başlattı: Fiyatına Değer mi?

Mavi Lazerler, Otonom Sualtı Araçlarına Kablosuz Enerji Sağlayabilir

Rüzgar Türbinleri için Geliştirilen Dünyanın En Büyük Kule Vinci

Anthropic, Claude’u Sivil Toplum Kuruluşlarına Taşıyacak Yeni Programını Duyurdu

Yapay Zeka Dedektörü, 1776 Tarihli ABD Bağımsızlık Bildirgesi’ni “Yapay Zeka Tarafından Yazılmış” Olarak Tanımladı

Instagram, Sürekli Reels İzleyenler için Otomatik Kaydırma Özelliğini Test Ediyor

Yapay Zekaya Güvenmeyi Bırak, Yönetim Kurulunu Kur

Seedance 2.0 Sonunda Geldi! – Nasıl Kullanılır?

Xiaomi, 2026 Yılında 19 Cihaz için Yazılım Güncellemelerini Durduruyor

Video Uygulaması Zoom, Humanity’s Last Exam Testinde Şaşırtıcı Bir Sonuçla Zirveye Yerleşti ve Gemini 3 Pro’yu Geçti

Humanity’s Last Exam Testini Anlamak

Zoom’un Birleşik YZ Yaklaşımı

İskeleleme (Scaffolding) Kazanımları

Gerçek Dünya Uygulamaları

Benzer Yazılar

Yorum Yap İptal