1. Anasayfa
  2. Yapay Zeka

Japon Sakana’nın Yeni Yapay Zeka Sistemi Fugu, Bazı Testlerde Claude Fable 5’i Geçti

Japon Sakana’nın Yeni Yapay Zeka Sistemi Fugu, Bazı Testlerde Claude Fable 5’i Geçti
0

Bir Japon yapay zeka şirketi olan Sakana, tek bir modele dayanmayan Fugu adlı yeni bir yapay zeka sistemi piyasaya sürdü. Sistem, karmaşık görevleri çözmek için tek bir API üzerinden birden fazla yapay zeka modelini koordine edebiliyor. Japon girişim, Fugu Ultra’nın mühendislik, bilim ve akıl yürütme alanlarındaki temel kriter testlerinde Anthropic Fable 5 ve Mythos Preview ile başa baş bir performans sergilediğini, hatta belirli görevlerde Fable 5’in performansını aştığını belirtti.

Sakana tarafından paylaşılan benchmark grafikleri, Fugu’nun düzenli olarak yenilenen yazılım problemi çözme görevlerinde kodlama performansını ölçen açık kaynaklı bir test olan LiveCodeBench üzerinde Anthropic’in Claude Fable 5 modelini geride bıraktığını gösteriyor (Fugu Ultra: 93.2, Fugu: 92.9, Fable: 89.8). Sistem ayrıca; biyoloji, fizik ve kimya alanlarında lisansüstü düzeydeki 198 çoktan seçmeli sorudan oluşan GPQA-D (Diamond) testinde de önceki Claude Mythos Preview modelini mağlup ediyor (Fugu Ultra: 95.5, Fugu: 95.5, Mythos Preview: 94.6).

Fable 5 ve Mythos 5, Anthropic’in en güçlü ve en yetenekli modelleri ancak ABD hükümetinin ulusal güvenlik endişelerini gerekçe göstererek şirketten tüm yabancıların erişimini iptal etmesini istemesi üzerine, bu modeller lansmandan sadece üç gün sonra geri çekildi.

Fable 5, Anthropic’in nisan ayında ön gösterimini yaptığı temel model Mythos üzerine inşa edildi. Şirket, kötü niyetli kişilerin bankacılık sistemleri gibi kritik altyapıları hacklemek veya biyolojik silahlar üretmek için kullanabileceği endişesiyle bu modeli kitlesel kullanıma sunmaktan kaçınmıştı. Şirkete göre Mythos, test edilen tüm büyük işletim sistemlerindeki ve web tarayıcılarındaki açıkları tespit etmeyi başarmıştı. Açıkların bazılarının onlarca yıldır fark edilmeden durduğu bildirildi. Bu nedenle şirket, savunma amaçlı siber güvenlik çalışmalarında kullanılmak üzere Google, Apple, Amazon, Microsoft ve CrowdStrike’ın da aralarında bulunduğu, titizlikle incelenmiş yaklaşık 50 kuruluşla paylaştığı Project Glasswing adlı kontrollü bir program başlattı.

Anthropic, siber güvenlik ve biyoloji gibi yüksek riskli alanlardaki yanıtları engellemek için güvenlik bariyerlerine sahip bir Mythos sürümü yayınlamıştı. Eğer biri kritik bir sisteme sızmak veya biyolojik silah üretmek için en son sürüm olan Fable 5’i kullanmaya çalışırsa, model otomatik olarak daha önceki ve daha az yetenekli sürüm olan Claude Opus 4.8’e geri dönecekti.

Yapay zeka modellerinin performansını takip eden Vals AI’a göre Fable 5, gerçekleştirdiği benchmarklarda herkese açık en yetenekli yapay zeka modeli olarak sıralandı.

Sakana pazartesi günü iki farklı sürüm piyasaya sürdü: Kodlama, sohbet ve diğer günlük görevler için Fugu ile yapay zeka araştırmaları, makalelerin yeniden üretilmesi, siber güvenlik analizi ve patent incelemeleri gibi daha karmaşık çalışmalar için Fugu Ultra.

Şirket ayrıca yaptığı testlerin; otomatik araştırma, mekanik tasarım, Japonca el yazısı analizi, tek hamlelik satranç, Rubik Küpü çözme ve finansal zaman serisi tahmini gibi görevlerde Fugu modellerinin Google Gemini 3.1 Pro, OpenAI GPT-5.5 ve Anthropic Opus 4.8’den daha yüksek performans gösterdiğini ortaya koyduğunu iddia etti.

Tokyo merkezli Sakana AI, Google’ın 2017 tarihli temel “Attention Is All You Need” makalesinin ortak yazarlarından Llion Jones ve Stability AI’ın eski araştırma başkanı David Ha tarafından 2023 yılında kuruldu.

Kaynak: https://www.ndtv.com/artificial-intelligence/japanese-ai-company-sakana-launches-fugu-system-reportedly-outperforms-anthropics-claude-fable-5-on-some-benchmarks-11673130
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 0
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir