Yapay Zeka

Tuesday, August 20, 2024

Salesforce, görsel dil anlayışını geliştirmek için 'xGen-MM' açık kaynaklı multimodal yapay zeka modellerini yayınladı.

Kurumsal yazılım devi Salesforce, daha yetenekli yapay zeka sistemlerinin araştırılmasını ve geliştirilmesini hızlandırabilecek yeni bir açık kaynaklı büyük multimodal yapay zeka modelleri paketi yayınladı.

xGen-MM (BLIP-3 olarak da bilinir) olarak adlandırılan modeller, yapay zekanın metin, görüntü ve diğer veri türlerini birleştiren içeriği anlama ve üretme becerisinde önemli bir ilerlemeyi temsil ediyor.

Salesforce AI Research'ten araştırmacılar, arXiv'de yayınlanan bir makalede, önceden eğitilmiş modeller, veri kümeleri ve ince ayar için kod içeren xGen-MM çerçevesini ayrıntılı olarak açıkladılar. En büyük model, 4 milyar parametre ile, benzer büyüklükteki açık kaynak modellere kıyasla çeşitli kıyaslama ölçütlerinde rekabetçi performans elde ediyor.

Yazarlar makalede, “LMM araştırmalarında daha fazla ilerlemeyi kolaylaştırmak için modellerimizi, küratörlü büyük ölçekli veri kümelerimizi ve ince ayar kod tabanımızı açık kaynak olarak sunuyoruz” diye yazdı. Bu hamle, gelişmiş yapay zeka modellerini tescilli tutma eğiliminden bir sapmaya işaret ediyor ve potansiyel olarak en son multimodal yapay zeka teknolojisine erişimi demokratikleştiriyor.

xGen-MM'in önemli bir yeniliği, araştırmacıların “çok modlu verilerin en doğal biçimi” olarak tanımladıkları, birden fazla görüntü ve metni birleştiren “serpiştirilmiş verileri” işleme yeteneğidir. Bu yetenek, modellerin aynı anda birden fazla görüntüyle ilgili soruları yanıtlamak gibi karmaşık görevleri yerine getirmesine olanak tanıyor; bu da tıbbi teşhisten otonom araçlara kadar gerçek dünyadaki uygulamalarda paha biçilmez bir beceri olabilir.

Sürüm, modelin farklı amaçlar için optimize edilmiş çeşitlerini içeriyor; bunlar arasında ön eğitimli temel bir model, yönergeleri takip etmek için “talimat ayarlı” bir model ve zararlı çıktıları azaltmak için tasarlanmış “güvenlik ayarlı” bir model yer alıyor. Bu model yelpazesi, yapay zeka topluluğunda, kabiliyeti güvenlik ve etik hususlarla dengeleme ihtiyacı konusunda artan bir farkındalığı yansıtmaktadır.

Salesforce'un bu modelleri açık kaynaklı hale getirme kararı, bu alandaki yenilikleri önemli ölçüde hızlandırabilir. Salesforce, araştırmacılara ve geliştiricilere yüksek kaliteli modellere ve veri kümelerine erişim sağlayarak, daha geniş bir katılımcı yelpazesinin çok modlu yapay zekanın ilerlemesine katkıda bulunmasına olanak tanıyor. Bu hamle, en gelişmiş modellerini gizli tutan bazı teknoloji devlerinin daha kapalı yaklaşımlarıyla tezat oluşturuyor.

Bununla birlikte, bu kadar güçlü modellerin piyasaya sürülmesi, giderek daha yetenekli hale gelen YZ sistemlerinin potansiyel riskleri ve toplumsal etkileri hakkında önemli soruları da gündeme getiriyor. Salesforce riskleri azaltmak için güvenlik ayarlarını dahil etmiş olsa da, gelişmiş YZ modellerine yaygın erişimin daha geniş etkileri teknoloji camiasında ve ötesinde bir tartışma konusu olmaya devam ediyor.

xGen-MM modelleri, Salesforce ekibi tarafından hazırlanan ve aralarında “MINT-1T” adı verilen trilyonlarca jeton ölçeğinde görüntü ve metin verilerinin bulunduğu devasa veri kümeleri üzerinde eğitildi. Araştırmacılar ayrıca, YZ sistemlerinin görsel dünyayla daha doğal bir şekilde etkileşime girmesi için çok önemli olan optik karakter tanıma ve görsel topraklama alanlarına odaklanan yeni veri kümeleri oluşturdu.

YZ sistemleri daha gelişmiş ve her yerde bulunur hale geldikçe, Salesforce'un açık kaynak sürümü, araştırmacıların bu güçlü teknolojileri daha iyi anlamaları ve geliştirmeleri için değerli araçlar sağlıyor. Ayrıca, genellikle açıklık eksikliği nedeniyle eleştirilen bir alanda şeffaflık için bir emsal teşkil ediyor. Bu hamle, diğer teknoloji devlerini kendi yapay zeka araştırma ve geliştirmelerinde daha açık sözlü olmaya zorlayabilir.

Yapay zeka silahlanma yarışı kızışmaya devam ederken, Salesforce'un açık yaklaşımı stratejik bir farklılaştırıcı olabilir. Şirket, modelleri etrafında işbirliğine dayalı bir ekosistemi teşvik ederek daha hızlı yenilik yapabilir ve araştırma topluluğu içinde iyi niyet oluşturabilir. Ancak, bu stratejinin kurumsal yapay zeka çözümlerinin son derece rekabetçi dünyasında nasıl bir sonuç vereceği henüz belli değil.

xGen-MM için kod, modeller ve veri setleri Salesforce'un GitHub deposunda mevcut ve yakında projenin web sitesine ek kaynaklar eklenecek. Araştırmacılar ve geliştiriciler bu modelleri keşfetmeye ve geliştirmeye başladıkça, Salesforce'un multimodal yapay zeka alanına yaptığı katkının gerçek etkisi önümüzdeki aylarda ve yıllarda daha da netleşecek.