Teknoloji

6/6/2024

Stability AI, ses tasarımı için yeni Stable Audio Open'ı piyasaya sürdü.

Stability AI, Stable Audio Open 1.0'ın piyasaya sürülmesiyle bugün ses için üretken yapay zeka çalışmalarını başlatıyor.

Stability AI belki de en çok stabil difüzyon metinden görüntüye üretim yapay zeka teknolojisi ile tanınıyor, ancak bu, şirketin kod, metin ve ses için birden fazla model içeren daha geniş portföyünün yalnızca bir parçası. Eylül 2023'te Stability AI, metinden sese üreten bir yapay zeka aracı olarak Stable Audio'yu ilk kez halka açtı.  Stable Audio 2.0, üretilen sese daha fazla netlik ve uzunluk kazandırarak 3 Nisan'da piyasaya sürüldü.

Tam Stable Audio aracı genel ticari kullanım için mevcutken ve 3 dakikaya kadar ses üretebilirken, yeni Stable Audio Open önemli ölçüde daha sınırlıdır.  Stable Audio Open ile amaç tam şarkılar oluşturmak değil, ses efektleri gibi daha kısa parçalara sınırlı bir şekilde odaklanmaktır.

Stable Audio Open, adından da anlaşılacağı gibi, teknik olarak açık kaynak olmasa da açık bir modeldir. Gerçek bir Open Source Initiative (OSI) onaylı lisans kullanmak yerine, Stable Audio Open, Stability AI ticari olmayan araştırma topluluğu sözleşmesi lisansı altında kullanıcılara açıktır. Bu lisans, modele açık erişim sağlar, ancak kullanıcıların onunla neler yapabileceğini sınırlar.

Stability AI ses araştırmaları başkanı Zach Evans VentureBeat'e verdiği demeçte, “Stable Audio Open ile amacımız, bu inanılmaz yeni araçların araştırılmasını, benimsenmesini ve pratik yaratıcı kullanımını hızlandırmak için ses araştırmacılarına ve yapımcılarına üretken ses modellerimizden birine uygulamalı erişim sağlamaktır” dedi.

Stable Audio Open tam olarak nedir?
Stable Audio Open, müzik prodüksiyonu ve ses tasarımı için davul ritimleri, enstrüman riffleri, ortam sesleri ve diğer ses örnekleri gibi şeyler oluşturmak için optimize edilmiş özel bir modeldir.

Stability AI'nın üç dakikaya kadar daha uzun, tutarlı müzik parçaları üreten ticari Stable Audio ürününün aksine, Stable Audio Open metin komutları kullanarak 47 saniyeye kadar yüksek kaliteli ses verileri üretmeye odaklanmıştır.

Stability AI, modelin nasıl eğitildiği konusunda da sorumlu bir yaklaşım benimsemiştir. Model, FreeSound ve Free Music Archive'dan alınan ses verileri üzerinde eğitilmiş ve telif hakkıyla korunan veya tescilli hiçbir materyalin izinsiz kullanılmaması sağlanmıştır.

Stable Audio Open sürümünün en önemli avantajlarından biri, kullanıcıların kendi özel ses verileri üzerinde modele ince ayar yapabilmeleridir. Örneğin, bir davulcu yeni, benzersiz vuruşlar oluşturmak için kendi davul kayıtlarının örnekleri üzerinde modele ince ayar yapabilir.

Stable Audio'nun ince ayarı, gerçek bir açık kaynak lisansı altında lisanslanan Stable Audio Tools kütüphanesi aracılığıyla etkinleştirilir. Stable Audio Açık Model ağırlıkları artık Hugging Face'te mevcut.

Evan, “Ses araştırma ekibi sürekli olarak üretken ses modellerimizin kalitesini ve kontrol edilebilirliğini artırmanın yolları üzerinde çalışıyor” dedi. “Araştırmamızın kaydettiği ilerlemeyi yansıtan daha fazla ticari ve açık model sürümünü dört gözle bekliyoruz.”