En Son Haberler

Thursday, November 28, 2024

Alibaba'nın QwQ-32B-Preview Modeli, Akıl Yürütmede OpenAI'yi Geride Bırakıyor.

QwQ-32B-Preview adlı yeni bir “akıl yürütme” yapay zeka modeli sahneye çıktı. OpenAI'nin o1'ine rakip olabilecek birkaç modelden biri ve izin verilen bir lisans altında indirilebilen ilk model.

Alibaba'nın Qwen ekibi tarafından geliştirilen QwQ-32B-Preview, 32,5 milyar parametre içeriyor ve ~32.000 kelime uzunluğundaki istemleri değerlendirebiliyor; OpenAI'nin şimdiye kadar yayınladığı iki muhakeme modeli olan o1-preview ve o1-mini'den belirli kriterlerde daha iyi performans gösteriyor. (Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir. OpenAI, modelleri için parametre sayısını açıklamıyor).

Alibaba'nın testlerine göre QwQ-32B-Preview, AIME ve MATH testlerinde OpenAI'nin o1 modellerini geride bırakıyor. AIME, bir modelin performansını değerlendirmek için diğer AI modellerini kullanırken, MATH bir kelime problemleri koleksiyonudur.

QwQ-32B-Preview, “akıl yürütme” yetenekleri sayesinde mantık bulmacalarını çözebilir ve oldukça zorlu matematik sorularını yanıtlayabilir. Ancak mükemmel değil. Alibaba bir blog yazısında modelin beklenmedik şekilde dil değiştirebileceğini, döngülerde takılabileceğini ve “sağduyulu muhakeme” gerektiren görevlerde düşük performans gösterebileceğini belirtiyor.

Çoğu yapay zekanın aksine, QwQ-32B-Preview ve diğer muhakeme modelleri kendilerini etkin bir şekilde kontrol eder. Bu, normalde modellere çelme takan bazı tuzaklardan kaçınmalarına yardımcı olur; bunun dezavantajı ise çözüme ulaşmalarının genellikle daha uzun sürmesidir. o1'e benzer şekilde, QwQ-32B-Preview, görevler boyunca mantık yürütür, ileriyi planlar ve modelin yanıtları ortaya çıkarmasına yardımcı olan bir dizi eylem gerçekleştirir.

Yapay zeka geliştirme platformu Hugging Face'de çalıştırılabilen ve buradan indirilebilen QwQ-32B-Preview, bazı siyasi konulara hafifçe yaklaşması bakımından yakın zamanda yayınlanan DeepSeek akıl yürütme modeline benziyor. Çinli şirketler olan Alibaba ve DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri yansıttığından” emin olmak için Çin'in internet düzenleyicisi tarafından kıyaslamaya tabi tutuluyor. Birçok Çinli yapay zeka sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin tepkisini çekebilecek konulara yanıt vermeyi reddediyor.

QwQ-32B-Preview, Apache 2.0 lisansı altında “açık” olarak kullanılabilir, yani ticari uygulamalar için kullanılabilir. Ancak modelin yalnızca belirli bileşenleri yayınlanmıştır, bu da QwQ-32B-Preview'i kopyalamayı veya sistemin iç işleyişi hakkında fazla bilgi edinmeyi imkansız hale getirmektedir. Yapay zeka modellerinin “açıklığı” kesinleşmiş bir soru değildir, ancak daha kapalıdan (yalnızca API erişimi) daha açığa (model, ağırlıklar, veriler açıklanmış) genel bir süreklilik vardır ve bu model ortada bir yere düşmektedir.

Muhakeme modellerine olan ilginin artması, bir modele daha fazla veri ve bilgi işlem gücü atmanın onun yeteneklerini sürekli olarak artıracağına dair uzun süredir devam eden teoriler olan “ölçeklendirme yasalarının” uygulanabilirliğinin inceleme altına alınmasıyla ortaya çıkmaktadır. Basında çıkan haberler OpenAI, Google ve Anthropic gibi büyük yapay zeka laboratuvarlarının modellerinin bir zamanlar olduğu kadar çarpıcı bir şekilde gelişmediğini gösteriyor.