Yapay Zeka

Wednesday, July 24, 2024

Meta şimdiye kadarki en büyük ve en iyi açık kaynaklı yapay zeka modelini yayınladı.

Meta, aylarca süren tanıtımların ve dünkü sızıntı iddiasının ardından bugün açık kaynak kodlu Llama büyük dil modelinin (LLM) en büyük sürümü olan 405 milyar parametreli Llama-3.1 sürümünü resmi olarak yayınladı.

Hatırlayacağınız gibi parametreler, bir LLM'nin nasıl davranacağını yöneten ve eğitim verilerinden öğrenilen ayarlardır ve daha tipik olarak, ideal olarak daha karmaşık talimatları işleyebilen ve umarım daha küçük parametreli modellerden daha doğru olabilen daha güçlü modelleri ifade eder.

Llama 3.1, Nisan 2024'te tanıtılan ancak şimdiye kadar yalnızca 8 milyar ve 70 milyar versiyonları bulunan Llama 3'ün bir güncellemesidir.

Artık 405 milyar parametreli versiyon daha küçük modelleri “öğretebilir” ve sentetik veriler oluşturabilir. Llama 3.1, model damıtma ve sentetik veri oluşturmaya izin vermek için ısmarlama bir açık kaynak lisansı altında çalışacaktır.

Meta Yapay Zeka Program Yönetimi Başkan Yardımcısı Ragavan Srinivasan VentureBeat'e verdiği röportajda, “Bu model, performans açısından, açık kaynak modelleri söz konusu olduğunda son teknoloji ürünü bir performans sunacak ve birçok tescilli, sektör lideri, kapalı kaynak modeliyle inanılmaz derecede rekabetçi olacak” dedi.

Llama 3.1 lansman sırasında çok dilli olacak ve İngilizce, Portekizce, İspanyolca, İtalyanca, Almanca, Fransızca, Hintçe ve Tayca istemleri destekleyecek. Daha küçük Llama 3 modelleri de bugünden itibaren çok dilli olacak.

Llama 3.1'in bağlam penceresi 128.000 jetona genişletildi - bu da kullanıcıların Llama'ya yaklaşık 400 sayfalık bir romana sığacak kadar metin girebileceği anlamına geliyor.

Meta bir blog yazısında Llama 3.1'i 150'den fazla kıyaslama veri seti üzerinde test ettiğini ve gerçek dünya senaryoları için insan güdümlü değerlendirmeler yaptığını söyledi. 405B modelinin “GPT-4, GPT-4o ve Claude 3.5 Sonnet dahil olmak üzere bir dizi görevde önde gelen temel modellerle rekabetçi olduğunu söyledi. Daha küçük boyutlu modeller de benzer performans gösterdi.

Llama model ailesi, modele çeşitli platformlarda erişebilen birçok geliştirici için popüler bir seçim haline geldi. Meta, Llama 3'ün farklı kıyaslamalarda rakip modellerden daha iyi performans gösterebileceğini veya onlarla aynı seviyede olabileceğini söyledi. Çoktan seçmeli sorularda ve kodlamada Google'ın Gemma ve Gemini, Anthropic'in Claude 3 Sonnet ve Mistral'in 7B Instruct modellerine karşı iyi performans gösterdi.

Meta ayrıca model damıtma ve sentetik veri oluşturmaya izin vermek için tüm modellerinin lisansını güncelledi. Model damıtma veya bilgi damıtma, kullanıcıların bilgi veya eğitimi daha büyük bir yapay zeka modelinden daha küçük bir modele aktarmasına olanak tanır.

Srinivasan 405B versiyonunu, bilgiyi 8B ve 70B modellerine indirgeyebilen bir “öğretim modeli” olarak adlandırdı.

“405B modelini düşünmenin en iyi yolu bir öğretmen modelidir. İçinde çok fazla bilgi, çok fazla yetenek ve muhakeme var,” dedi Srinivasan. “Bir kez kullandığınızda, belki doğrudan konuşlandırılamaz, ancak belirli görevler için ince ayar yapılabilen daha küçük, daha verimli sürümler oluşturmak için özel kullanım durumlarınız için bilgisini damıtabilirsiniz.”

Bu model damıtma sayesinde, kullanıcılar 405B versiyonu ile inşa etmeye başlayabilir ve daha küçük bir model yapabilir veya Llama 3.1 8B veya 70B'yi eğitebilir.

Bununla birlikte, 405B modelinin daha küçük modellerin ince ayarında yararlı olabileceği tek şey bilgi tabanı değildir. Sentetik veri oluşturma yeteneği, diğer modellerin telif hakkı, kişisel veya hassas verilerden ödün vermeden ve özel amaçlarına uygun olarak bilgilerden öğrenmesine olanak tanıyacaktır.

Meta, eğitim yığınını optimize etmek zorunda kaldığını ve 405B modelini eğitmek için 16.000'den fazla Nvidia H100 GPU kullandığını söyledi. Daha büyük modeli daha ölçeklenebilir hale getirmek için Meta araştırmacıları, son aylarda popüler hale gelen uzmanların karışımı mimarisi yerine yalnızca standart bir transformatör modeli kullanmaya karar verdi.

Şirket ayrıca denetimli ince ayar için “yinelemeli bir eğitim sonrası prosedürü” kullandı ve performansı artırmak için “en yüksek kalitede” sentetik veriler oluşturdu.

Kendisinden önceki diğer Llama modelleri gibi Llama 3.1 de açık kaynaklı olacaktır. Kullanıcılar bu modele AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud ve diğer model kütüphaneleri üzerinden erişebilecek.

AWS'nin yapay zekadan sorumlu başkan yardımcısı Matt Wood VentureBeat'e yaptığı açıklamada Llama 3.1'in hem AWS Bedrock hem de Sagemaker'da kullanılabileceğini söyledi. AWS müşterileri, hizmetleri aracılığıyla Llama 3.1 modellerine ince ayar yapabilir ve ek korkuluklar ekleyebilir.

Wood, “Müşteriler Llama'nın kamuya açık tüm avantajlarını kullanabilir ve bu modellerle her türlü ilginç şeyi yapabilir, onları parçalara ayırabilir ve AWS'de bulunan tüm araçlarla tekrar bir araya getirebilir” dedi.

Llama 3.1 405B ayrıca WhatsApp ve Meta AI'da da mevcut olacak.