Yapay Zeka Uygulamaları
27/3/2025
Alibaba Cloud, Qwen serisinin yeni modeli olan uçtan uca çok modlu yapay zeka modeli Qwen2.5-Omni-7B'yi kullanıma sundu. Kapsamlı çok modlu algılama için benzersiz bir şekilde tasarlanan model; metin, görüntü, ses ve video gibi farklı girdileri işleyebilmekte ve gerçek zamanlı olarak metin ve doğal konuşma çıktıları oluşturabilmektedir. Böylece mobil telefonlar ve dizüstü bilgisayarlar gibi uç cihazlarda en iyi performansı sunabilecek, kullanılabilir çok modlu yapay zeka için yeni bir standart ortaya koymaktadır.
Kompakt 7 milyar parametreli tasarımına rağmen Qwen2.5-Omni-7B, üstün performanstan ve güçlü çok modlu yeteneklerden ödün vermemektedir. Sahip olduğu bu eşsiz özellikler, özellikle akıllı ses uygulamaları gibi çevik ve maliyet açısından etkin yapay zeka çözümleri geliştirmek için ideal bir altyapı sunmaktadır. Örneğin model; görme engelli kullanıcıların ortamlarında gerçek zamanlı sesli açıklamalarla gezinmelerine yardımcı olmak, videolardaki malzemeleri analiz ederek adım adım yemek pişirme rehberliği sunmak veya kullanıcı ihtiyaçlarını gerçekten anlayan akıllı müşteri hizmetleri diyalogları sağlamak gibi uygulamalarla hayatları değiştirme potansiyeline sahiptir.
Model artık Hugging Face ve GitHub platformlarında açık kaynak olarak sunulmakta, ayrıca Qwen Chat ve Alibaba Cloud'un açık kaynak topluluğu olan ModelScope aracılığıyla da erişilebilmektedir. Alibaba Cloud, son yıllarda 200'den fazla üretken yapay zeka modelini açık kaynak haline getirmiştir.
Yüksek Performansın Arkasında Yenilikçi Mimari
Qwen2.5-Omni-7B, tüm modlarda, karşılaştırılabilir boyutlardaki uzmanlaşmış tek modlu modellerle yarışan dikkate değer bir performans sunmaktadır. Model özellikle gerçek zamanlı ses etkileşiminde, doğal ve güçlü konuşma üretiminde ve uçtan uca sesli talimatları takip etmede yeni standartlar belirlemiştir.
Modelin verimliliği ve yüksek performansı; metin üretimini (Thinker aracılığıyla) ve konuşma sentezini (Talker aracılığıyla) ayırarak farklı modlar arasındaki etkileşimi minimize eden Thinker-Talker Mimarisinden; video girdilerini sesle daha uyumlu hale getiren bir konum gömme tekniği olan TMRoPE'den (Zaman Hizalı Çok Modlu RoPE); ve kesintisiz ses etkileşimi için düşük gecikmeli sesli yanıtlar sağlayan Blok Tabanlı Akış İşleme teknolojisinden kaynaklanmaktadır.
Kompakt Boyutuna Rağmen Olağanüstü Performans
Qwen2.5-Omni-7B; görüntü-metin, video-metin, video-ses, ses-metin ve metin verilerini içeren geniş ve çeşitli bir veri kümesi üzerinde ön eğitime tabi tutulmuştur. Böylece çeşitli görevlerde sağlam ve etkileyici bir performans sergilemektedir.
Yenilikçi mimarisi ve yüksek kaliteli ön eğitim veri seti sayesinde, model sesli komutları takip etmekte üstün performans göstermekte ve yalnızca metin girdi kullanan sistemlerle kıyaslanabilir seviyelere ulaşmaktadır. OmniBench gibi görsel, işitsel ve metinsel girdileri tanıma, yorumlama ve bunlar üzerinde akıl yürütme yeteneğini değerlendiren kriterlerde de en yüksek performansa ulaşmıştır.
Qwen2.5-Omni-7B aynı zamanda bağlam içi öğrenme (ICL) sayesinde güçlü konuşma anlama ve üretme yetenekleri sergilemektedir. Takviye öğrenimi (RL) optimizasyonu sonrası ise modelin üretim kararlılığında önemli iyileştirmeler sağlanmış, dikkat hizalamasındaki problemler, telaffuz hataları ve konuşma sırasındaki uygunsuz duraklamalar belirgin şekilde azalmıştır.
Alibaba Cloud, geçtiğimiz eylül ayında Qwen2.5'i tanıtmış, Ocak ayında piyasaya sürülen ve Chatbot Arena sıralamasında 7. olan Qwen2.5-Max ile sektördeki en iyi kapalı kaynak büyük dil modellerine denk performans göstermiştir. Şirket ayrıca görsel algılama yeteneklerini artırmak ve uzun bağlam girdilerini işlemek için Qwen2.5-VL ve Qwen2.5-1M modellerini de açık kaynak haline getirmiştir.
Kaynak: https://www.alizila.com/alibaba-cloud-releases-qwen2-5-omni-7b-an-end-to-end-multimodal-ai-model/