Çin merkezli YZ girişimi MiniMax, gerçek dünyadaki karmaşık görevlerde ve çok sayıda programlama dili ile ofis kullanım senaryolarında gelişmiş otonom yetenekler sunan M2.1 sürümünü yayımladı.
M2.1’in öne çıkan başlıkları arasında Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript ve JavaScript dahil olmak üzere pek çok dilde belirgin biçimde geliştirilen programlama kabiliyetleri yer alıyor. Web, Android ve iOS arayüz geliştirme süreçlerinde ise hem estetik tasarım anlayışı hem de bağlamı kavrama düzeyinde ciddi bir ilerleme sağlandığı görülüyor.
Yeni model, bir önceki sürüm olan M2’ye kıyasla sistematik problem çözme yeteneğini güçlendirirken yalnızca kodun doğru çalışmasına değil, çok adımlı ve nüans içeren talimatların eksiksiz uygulanmasına da odaklanıyor. MiniMax, gerçek ofis ortamlarında basit görünen kuralların dahi ayrıntılı bağlamlar içerdiğini ve söz konusu gelişmenin kullanım pratikliğini belirgin şekilde artırdığını vurguluyor.
Şirket, hedeflenen performans seviyesine ulaşmak için yalnızca kodlama becerilerine değil, aynı zamanda gelişmiş diyalog kurma ve yazılı anlatım yeteneklerine de önem veriyor. Model, günlük konuşmalardan teknik dokümantasyona, yapılandırılmış yanıt üretiminden yazım süreçlerine kadar geniş bir kullanım alanında yüksek tutarlılık sergiliyor.
Kilo Code Inc. kurucu ortağı ve CEO’su Scott Breitenother, erken test sonuçlarına atıf yaparak “kullanıcıların çok daha düşük maliyetlerle üst düzey kodlama desteğine erişebildiğini ve M2.1’in mimari tasarımdan kod incelemesine, dağıtımdan yayına almaya kadar tüm aşamalarda güçlü sonuçlar verdiğini” belirtiyor.

Ekim ayı sonunda yayımlanan M2 sürümünün ardından gelen M2.1, özellikle çok dilli kullanım senaryolarında selefine kıyasla dikkat çekici yetenek artışları sunuyor. Yapılan karşılaştırmalı testlerde Anthropic PBC imzalı Claude Sonnet 4.5 modelini geride bırakırken, daha büyük ve karmaşık bir yapı olan Claude Opus 4.5 seviyesine yaklaşmayı başarıyor.
Değerlendirme sürecinin bir parçası olarak MiniMax, VIBE (“Visual and Interactive Benchmark for Execution”) adını verdiği yeni bir ölçüm kriteri tanımladı. Test paketi; web, simülasyon, Android, iOS ve backend geliştirme olmak üzere beş ana yetkinliği kapsıyor. VIBE, diğer kriterlerden farklı olarak üretilen uygulamaların görsel kalitesini ve mantıksal bütünlüğünü ölçmek için denetleyici rol üstlenen bir YZ ajanı kullanıyor.
M2.1, VIBE testlerinde 88,6 ortalama puan elde ederek MiniMax tarafından “olağanüstü performans” olarak tanımlanan bir sonuç ortaya koydu. Özellikle VIBE-Web ve VIBE-Android alt testlerinde sırasıyla 91,5 ve 89,7 puan alarak öne çıktı.
Şirket ayrıca modeli, kodlama ve bilgi temelli endüstri standartlarında Anthropic, Google LLC, OpenAI Group PBC ve DeepSeek gibi büyük sağlayıcılara karşı kıyasladı. MMLU-Pro, Humanity’s Last Exam ve YZ ajanları için geliştirilen Toolathon testleri kapsamında performans ölçümleri gerçekleştirildi.
M2.1, otonom araç kullanımı, gerçek dünya bilgisi ve karmaşık problem çözme alanlarında tutarlı bir yüksek performans sergiliyor. Binlerce lisansüstü düzey sorudan oluşan zorlu Humanity’s Last Exam testinde 22,0 puan elde eden model, geniş kapsamlı konu bilgisi ölçen MMLU testinde ise 88 puana ulaşarak öncü modellerle benzer sonuçlar verdi.
Model, MiniMax platformu üzerinden bir API olarak veya Hugging Face üzerinde açık ağırlıklarla sunulacak ancak söz konusu sayfa şu aşamada henüz aktif değil. Şirketin ana ürünü olan MiniMax Agent ise artık tamamen MiniMax-2.1 mimarisi üzerine inşa ediliyor.
Kaynak: https://siliconangle.com/2025/12/23/minimax-releases-m2-1-ai-model-multi-language-programming-versatility/
