Meta, Segment Anything Model (SAM) ailesine yeni bir yapay zeka (YZ) modeli daha ekledi. Menlo Park merkezli teknoloji devi, salı günü ses karışımları içindeki belirli sesleri tanımlayabilen, ayırabilen ve izole edebilen büyük bir dil modeli (LLM) olan SAM Audio‘yu piyasaya sürdü. Model; metin istemleri, görsel sinyaller veya zaman damgalarına dayalı olarak ses düzenleme işlemlerini gerçekleştirebiliyor ve tüm iş akışını otomatikleştiriyor. SAM serisindeki diğer modeller gibi, SAM Audio da kısıtlayıcı olmayan bir lisansla gelen açık kaynaklı bir model.
Meta, SAM Audio YZ Modelini Tanıttı
Teknoloji devi, bir haber odası gönderisinde yeni ses odaklı YZ modelini duyurdu ve detaylandırdı. SAM Audio şu anda Meta‘nın web sitesi, GitHub listesi veya Hugging Face üzerinden indirilebiliyor. Modeli yerel olarak çalıştırmadan yeteneklerini kullanmayı tercih eden kullanıcılar, test etmek için Segment Anything Playground’u ziyaret edebilirler. Web sitesi ayrıca kullanıcıların diğer tüm SAM modellerine erişmesine de olanak tanıyor. Özellikle, hem araştırmayla ilgili hem de ticari kullanıma izin veren özel, Meta‘ya ait bir lisans olan SAM Lisansı altında sunulması dikkat çekiyor.
Meta, SAM Audio‘yu karmaşık bir karışımdan sesleri tanımlamak ve ayırmak için metin tabanlı komutlar, görsel ipuçları ve zaman tabanlı talimatlar kullanan birleşik bir YZ ses modeli olarak tanımlıyor. Geleneksel olarak ses düzenleme, özellikle de bireysel ses öğelerini izole etme işlemi, genellikle sınırlı hassasiyete sahip özel araçlar ve manuel çalışma gerektiriyordu. Meta‘nın SAM serisindeki en son girişi söz konusu boşluğu dolduruyor.
Model üç tür istemi destekliyor. Metin istemleri ile kullanıcılar, davul ritmi veya arka plan gürültüsü gibi açıklamalar yazabiliyor. Görsel istemleme, kullanıcıların bir videodaki bir nesneye veya insana tıklamasına olanak tanıyor ve eğer oradan bir ses üretiliyorsa, o ses izole ediliyor. Son olarak, zaman aralığı istemi, herhangi birinin bir sesi hedeflemek için zaman çizelgesinin bir bölümünü işaretlemesine izin veriyor.
Bir örnekle vurgulamak gerekirse, arka planda müzik çalarken telefonda konuşan bir kişinin olduğu ve uzakta oynayan çocukların seslerinin duyulabildiği bir ses dosyası hayal edin. Kullanıcılar, tek bir komutla birincil ses, müzik veya çocukların çıkardığı ortam gürültüsü olsun, bahsi geçen ses kaynaklarından herhangi birini izole edebilir.
Teknik açıdan bakıldığında SAM Audio, bir ses karışımından hem hedef hem de artık ses bileşenlerini (stems) çıkaran üretken bir ayırma modelidir. Akış eşleştirmeli bir Difüzyon Transformatörü ile donatılmıştır ve Descript Audio Codec – Varyasyonel Otomatik Kodlayıcı Varyantı (DAC-VAE) alanında çalışır.
Kaynak: https://www.gadgets360.com/ai/news/meta-sam-audio-segment-anything-ai-model-open-source-release-isolate-sound-audio-mixtures-9831995
