Yapay Zeka
18/3/2025
Yapay zeka şirketi Sesame, etkileyici derecede gerçekçi sesli asistan Maya'ya güç veren temel modeli yayınladı.
Büyüklüğü 1 milyar parametre olan model (“parametreler” modelin tek tek bileşenlerini ifade ediyor) Apache 2.0 lisansı altında, yani birkaç kısıtlamayla ticari olarak kullanılabiliyor. Sesame'in yapay zeka geliştirme platformu Hugging Face'teki açıklamasına göre CSM-1B olarak adlandırılan model, metin ve ses girdilerinden “RVQ ses kodları” üretiyor.
RVQ, sesi kod adı verilen ayrık belirteçlere kodlamak için kullanılan bir teknik olan “artık vektör niceleme” anlamına geliyor. RVQ, Google'ın SoundStream'i ve Meta'nın Encodec'i de dahil olmak üzere bir dizi yeni yapay zeka ses teknolojisinde kullanılmaktadır.
CSM-1B, bir ses “kod çözücü” bileşeniyle eşleştirilmiş omurgası olarak Meta'nın Llama ailesinden bir model kullanıyor. Sesame, CSM'nin ince ayarlanmış bir varyantının Maya'ya güç verdiğini söylüyor.
Sesame, CSM-1B'nin Hugging Face ve GitHub depolarında “Burada açık kaynaklı olarak sunulan model temel nesil bir modeldir” diye yazıyor. “Çeşitli sesler üretme kapasitesine sahip ancak herhangi bir ses üzerinde ince ayar yapılmamıştır [...] Model, eğitim verilerindeki veri kirliliği nedeniyle İngilizce olmayan diller için bir miktar kapasiteye sahip fakat muhtemelen iyi sonuç vermeyecektir.”
Sesame'in CSM-1B'yi eğitmek için hangi verileri kullandığı ise belli değil. Şirket konuyla ilgili herhangi bir bilgi vermedi.
Modelin hiçbir gerçek güvencesi olmadığını belirtmek gerekir. Sesame'in bir onur sistemi var ve sadece geliştiricileri ve kullanıcıları, bir kişinin sesini rızası olmadan taklit etmek, sahte haberler gibi yanıltıcı içerik oluşturmak veya “zararlı” veya “kötü niyetli” faaliyetlerde bulunmak için modeli kullanmamaya çağırıyor.
Demoyu Hugging Face üzerinde denedim ve sesimi klonlamak bir dakikadan az sürdü. Bu aşamadan sonra, seçimler ve Rus propagandası gibi tartışmalı konular da dahil olmak üzere dilediğim gibi konuşmalar üretmek çok kolaydı.
Tüketici Raporları kısa bir süre önce piyasadaki yapay zeka destekli popüler ses klonlama araçlarının çoğunun dolandırıcılık veya suistimali önleyecek “anlamlı” güvenlik önlemlerine sahip olmadığı konusunda uyarıda bulundu.
Oculus'un ortak yaratıcısı Brendan Iribe tarafından kurulan Sesame, tekinsiz vadi bölgesini temizlemeye yaklaşan asistan teknolojisiyle Şubat ayı sonlarında viral oldu. Maya ve Sesame'in diğer asistanı Miles, OpenAI'nin Ses Modu'na benzer şekilde nefes alıyor, akıcı olmayan bir şekilde konuşuyor ve konuşurken kesilebiliyor.
Sesame, Andreessen Horowitz, Spark Capital ve Matrix Partners'tan açıklanmayan miktarda sermaye topladı. Şirket, sesli asistan teknolojisi geliştirmenin yanı sıra, özel modelleriyle donatılacak “tüm gün takılmak üzere tasarlanmış” yapay zeka gözlüklerinin prototipini oluşturduğunu söylüyor.