1. Anasayfa
  2. Yapay Zeka

Claude Opus 4.5 Yaklaşık Beş Saat Süren Görevlerin Altından Kalkabiliyor

Claude Opus 4.5 Yaklaşık Beş Saat Süren Görevlerin Altından Kalkabiliyor
0

YZ araştırma kuruluşu METR, Claude Opus 4.5 için yeni performans sonuçlarını paylaştı. Anthropic’in en güncel modeli, yaklaşık 4 saat 49 dakikalık zaman ufkuna ulaşarak şimdiye kadar ölçülen en yüksek değeri elde etti. Zaman ufku, görev süresi uzadıkça bir YZ modelinin işi başarıyla tamamlayabilme kapasitesini gösteren ve %50 başarı eşiği üzerinden hesaplanan bir dayanıklılık metriği olarak tanımlanıyor.

Farklı başarı eşikleri arasındaki performans farkı oldukça belirgin. Başarı beklentisi %80 seviyesine çıkarıldığında, zaman ufku yalnızca 27 dakikaya düşüyor. Söz konusu değer, daha eski modellerin sunduğu seviyelere yakın kalıyor; Opus 4.5’in asıl avantajı, uzun süreye yayılan ve çok adımlı görevlerde ortaya çıkıyor. METR araştırmacıları, testlerde görülen 20 saatin üzerindeki teorik üst sınırın, büyük olasılıkla sınırlı veri nedeniyle oluşan istatistiksel sapmadan kaynaklandığını ifade ediyor.

Her performans ölçümünde olduğu gibi METR testinin de önemli kısıtları bulunuyor. Çalışmanın yalnızca 14 örneklemle yürütülmüş olması, elde edilen sonucun daha geniş ölçekli deneylerle desteklenmesi gerektiğine işaret ediyor.

Kaynak: https://the-decoder.com/anthropics-claude-opus-4-5-can-tackle-some-tasks-lasting-nearly-five-hours/
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 2
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir