Yapay Zeka

6/3/2025

Alibaba'nın Yeni Yapay Zekası Tüm Açık Kaynak Rakiplerinden Daha İyi Performans Gösteriyor

Çinli e-ticaret devi Alibaba'nın Qwen ekibi, büyük dil modelleri (LLM) ailesine yeni bir ekleme yaparak QwQ-32B modelini tanıttı. 32 milyar parametreye sahip yeni model, takviyeli öğrenme (RL) kullanarak karmaşık problem çözme görevlerinde daha iyi performans göstermeyi hedefliyor.

Model, Hugging Face ve ModelScope platformlarında Apache 2.0 lisansı altında açık kaynak olarak sunuluyor. Bu, hem ticari hem de akademik kullanımlara uygun olduğu anlamına geliyor; işletmeler, QwQ-32B’yi doğrudan ürün ve uygulamalarında kullanabilir.

QwQ’nun Gelişimi ve Amacı

QwQ (Qwen-with-Questions), Alibaba tarafından Kasım 2024’te OpenAI’nin o1-preview modeline rakip olarak piyasaya sürüldü. Bu açık kaynak mantıksal akıl yürütme modeli, yanıtlarını gözden geçirip düzelterek karar verme sürecini geliştiren bir sistem sunuyor.

İlk sürüm, 32 milyar parametre ve 32.000 token bağlam uzunluğuna sahipti. Alibaba, modelin AIME ve MATH gibi matematiksel testlerde, ayrıca GPQA gibi bilimsel muhakeme görevlerinde o1-preview’den daha başarılı olduğunu belirtti. Ancak, erken sürümler, LiveCodeBench gibi programlama testlerinde OpenAI modellerinin gerisinde kalıyor ve zaman zaman dil karışımı ve döngüsel akıl yürütme sorunları yaşıyordu.

Modelin Apache 2.0 lisansı ile yayımlanması, geliştiricilere ve işletmelere serbest kullanım ve uyarlama imkanı sunarak OpenAI gibi tescilli çözümlerden ayrılmasını sağladı.

Takviyeli Öğrenme ile Performans Artışı

Büyük dil modelleri ölçeklendikçe verimlilik artışı azalmaya başladı ve da akıl yürütme yeteneğini geliştirmeye odaklanan büyük akıl yürütme modellerine (LRM) olan ilgiyi artırdı. Bu kategoride OpenAI’nin o3 serisi ve DeepSeek-R1 gibi modeller dikkat çekiyor. Hong Kong merkezli High-Flyer Capital Management’ın bir yan kuruluşu olan DeepSeek tarafından geliştirilen DeepSeek-R1, piyasaya sürüldüğünden beri hızla büyüyerek OpenAI’den sonra en çok ziyaret edilen yapay zeka model sağlayıcısı hâline geldi.

Alibaba’nın QwQ-32B modeli, takviyeli öğrenme (RL) ve yapılandırılmış kendine soru sorma mekanizmalarını entegre ederek, alandaki rekabete güçlü bir giriş yapıyor. Model, çok aşamalı RL eğitimi sayesinde matematiksel muhakeme, kodlama becerisi ve genel problem çözme yeteneklerini geliştiriyor.

DeepSeek-R1, 671 milyar parametreye sahip olup 37 milyar parametreyi etkinleştirirken, QwQ-32B daha küçük bir ölçekte benzer performans gösterebiliyor. Özellikle, modelin çalıştırılması için yalnızca 24 GB GPU belleği gerektirirken, tam DeepSeek-R1 modeli için 16 Nvidia A100 GPU’ya ve 1500 GB VRAM’e ihtiyaç duyuluyor. Bu da Alibaba’nın RL tabanlı yaklaşımının verimliliğini gözler önüne seriyor.

Teknik Özellikler

QwQ-32B, sebep-sonuç ilişkisini temel alan bir dil modeli mimarisine sahip olup aşağıdaki optimizasyonları içeriyor:

  • 64 Transformer katmanı (RoPE, SwiGLU, RMSNorm ve Attention QKV bias ile),
  • Genel sorgu dikkat mekanizması (GQA) ile 40 sorgu başlığı ve 8 anahtar-değer çifti başlığı,
  • 131.072 token uzunluğunda genişletilmiş bağlam kapasitesi,
  • Ön eğitim, denetimli ince ayar (fine-tuning) ve RL içeren çok aşamalı eğitim süreci.

Modelin RL süreci iki aşamada gerçekleşti:

  1. Matematik ve Kodlama Odaklı Eğitim: Model, matematiksel akıl yürütme için doğruluk doğrulayıcı ve kodlama görevleri için kod yürütme sunucusu kullanılarak eğitildi. Bu sayede, üretilen yanıtlar doğruluk açısından değerlendirildikten sonra güçlendirildi.
  2. Genel Yetkinlik Artışı: Model, genel ödül modelleri ve kural tabanlı doğrulayıcılar kullanılarak eğitildi. Bu aşama, insan uyumu ve ajan tabanlı akıl yürütme yeteneklerini geliştirirken matematik ve kodlama becerilerini korudu.

İş Dünyasına Etkileri

QwQ-32B, CEO’lar, CTO’lar, IT yöneticileri ve YZ geliştiricileri için karar alma süreçlerini destekleyebilecek güçlü bir araç olabilir. Model, otomatik veri analizi, stratejik planlama, yazılım geliştirme ve akıllı otomasyon gibi alanlarda doğru, yapılandırılmış ve bağlama duyarlı çıktılar sunabiliyor.

Kodlama desteği, finansal modelleme veya müşteri hizmetleri otomasyonu gibi karmaşık problem çözme gerektiren senaryolar için QwQ-32B avantaj sağlayabilir. Açık ağırlıklı (open-weight) yapısı sayesinde kuruluşlar, modeli özel uygulamaları için özelleştirme ve ince ayar yapma özgürlüğüne sahiptir.

Modelin Çin merkezli olması, güvenlik ve önyargı endişelerini gündeme getirebilir. Ancak Hugging Face’de indirilebilir ve çevrimdışı kullanım için özelleştirilebilir olması, kaygıları büyük ölçüde giderebilir. Böylece, DeepSeek-R1’e alternatif olarak değerlendirilebilir.

İlk Tepkiler ve Kullanıcı Geri Bildirimleri

QwQ-32B’nin duyurusu, YZ araştırma topluluğunda büyük yankı uyandırdı. X (eski adıyla Twitter) platformunda birçok geliştirici ve endüstri uzmanı, model hakkındaki ilk izlenimlerini paylaştı:

  • Hugging Face’den Vaibhav Srivastav (@reach_vb), modelin sağlayıcı Hyperbolic Labs sayesinde "son derece hızlı" olduğunu ve "DeepSeek-R1 ve OpenAI o1-mini’yi geride bıraktığını" belirtti.
  • YZ haber kaynağı Chubby (@kimmonismus), modelin DeepSeek-R1’i zaman zaman geride bıraktığını ve boyut olarak 20 kat daha küçük olduğunu vurgulayarak, "Holy moly! Qwen yaptı yapacağını!" ifadesini kullandı.
  • Hyperbolic Labs kurucu ortağı ve CTO’su Yuchen Jin (@Yuchenj_UW), "Küçük modeller çok güçlü! Alibaba Qwen, 32 milyar parametreyle DeepSeek-R1’i ve OpenAI o1-mini’yi geride bırakan bir akıl yürütme modeli yayınladı!" dedi.
  • Hugging Face ekibinden Erik Kaunismäki (@ErikKaum), modelin tek tıklamayla dağıtım için Hugging Face uç noktalarında kullanılabildiğini belirterek, erişilebilirliğinin altını çizdi.

Geleceğe Bakış

Qwen ekibi, QwQ-32B’nin takviyeli öğrenmeyi ölçeklendirerek akıl yürütme yeteneklerini artırmanın ilk adımı olduğunu belirtiyor. Gelecekteki planları arasında:

  • RL tabanlı modellerin daha da geliştirilmesi,
  • Akıl yürütme süreçlerinde ajan sistemleri ile entegrasyon,
  • Yapay genel zeka (AGI) hedeflerine yönelik daha gelişmiş eğitim tekniklerinin uygulanması yer alıyor.

Alibaba’nın QwQ-32B modeli, takviyeli öğrenme kullanarak yüksek performanslı akıl yürütme sistemlerinin geleceğine dair önemli bir adım atıyor.





Kaynak: https://venturebeat.com/ai/alibabas-new-open-source-model-qwq-32b-matches-deepseek-r1-with-way-smaller-compute-requirements/