Yapay Zeka
24/4/2025
Nari Labs adlı iki kişilik bir girişim, metinden sese (TTS) dönüşüm alanında büyük iddia taşıyan yeni açık kaynak modeli Dia’yı tanıttı. 1,6 milyar parametreye sahip olan model, doğrudan metin girdilerinden doğal diyaloglar üretecek şekilde tasarlandı. Geliştiricilerden Toby Kim’e göre Dia, ElevenLabs, OpenAI’nin yakın zamanda tanıttığı gpt-4o-mini-tts ve Google’ın sesli içerik üretiminde öne çıkan NotebookLM platformu gibi rakiplerini geride bırakıyor.
Toby Kim, sosyal medya platformu X’te yaptığı paylaşımda “Dia, NotebookLM’nin podcast özelliğine rakip olurken, ElevenLabs Studio ve Sesame’nin açık modelini kalite açısından aşıyor.” dedi. Ayrı bir gönderide ise modelin “hiçbir finansman olmadan” geliştirildiğini belirterek şöyle devam etti: “…başlangıçta YZ uzmanı değildik. Her şey geçen yıl NotebookLM’nin podcast özelliğine hayran kalmamızla başladı. Daha fazlasını istedik — sesler üzerinde daha fazla kontrol, senaryo konusunda daha fazla özgürlük. Piyasadaki tüm TTS API’lerini denedik. Hiçbiri gerçek bir insan konuşması gibi değildi.”
Kim, Google’ın Research Cloud üzerinden sunduğu Tensor İşlem Birimi (TPU) erişimi sayesinde Dia’nın eğitiminin mümkün olduğunu da vurguladı.
Modelin kodları ve ağırlıkları — yani modelin iç bağlantı seti — Hugging Face veya GitHub üzerinden indirilebiliyor. Kullanıcılar ayrıca Hugging Face Space üzerinden yerel kurulum yapmadan deneme gerçekleştirebiliyor.
Dia, metin üzerinden duygusal tonlama, konuşmacı etiketleme ve sözsüz ses işaretleri gibi incelikli öğeleri destekliyor. Kullanıcılar metinde [S1], [S2] gibi etiketlerle konuşmacı değişimlerini işaretleyebilirken, (laughs), (coughs), (clears throat) gibi yönlendirmelerle diyaloglara jest ve mimik katkısı sağlayabiliyor. Nari Labs’ın örnek sayfasına göre, bu tür işaretlemeleri doğru şekilde yorumlayabilen sayılı modellerden biri.
Şu an yalnızca İngilizce dili destekleniyor. Dia, varsayılan olarak sabit bir ses kullanmıyor; her çalıştırmada farklı sesler üretiyor. Ancak kullanıcılar ses klibi yükleyerek ton ve benzerliği yönlendirebiliyor. Bu amaçla Nari Labs, ses örneğiyle koşullandırma (voice conditioning) için örnek kodlar ve Gradio tabanlı bir demo sunuyor.
Nari Labs, Dia’nın performansını ElevenLabs Studio ve Oculus VR başmühendisi Brendan Iribe’nin geliştirdiği Sesame CSM-1B ile karşılaştırmalı olarak Notion sayfasında yayınladı. Paylaşılan örneklerde, Dia’nın şu alanlarda öne çıktığı görülüyor:
Bazı testlerde, Sesame’nin kamuya açık sürümünde kullanılan 1B modelin, aslında 8B iç modelden alınmış örneklerle karşılaştırıldığı düşünülüyor. Bu da performans farklarını açıklayabiliyor.
Dia, PyTorch 2.0+ ve CUDA 12.6 ile çalışıyor. Kullanım için yaklaşık 10 GB VRAM yeterli. NVIDIA A4000 gibi kurumsal düzeyde GPU'lar ile saniyede yaklaşık 40 token işleyebiliyor. Şu an yalnızca GPU üzerinde çalışabilen model için CPU desteği ve kuantize edilmiş bir sürüm planlanıyor.
Geliştiriciler için bir Python kütüphanesi ve komut satırı aracı da sunulmuş durumda.
Dia’nın esnekliği, içerik üretiminden yardım teknolojilerine, sentetik seslendirmeden yaratıcı projelere kadar pek çok alanda kullanılmasına olanak tanıyor. Nari Labs, aynı zamanda gündelik kullanıcıların oluşturduğu sesli diyalogları paylaşabileceği bir tüketici sürümü üzerinde de çalışıyor. Erken erişim için e-posta yoluyla bekleme listesine kayıt olunabiliyor.
Model, ticari kullanım dahil olmak üzere geniş kapsam sunan Apache 2.0 açık kaynak lisansı altında yayımlandı. Ancak Nari Labs, ses klonlamayla birey taklidi yapılması, yanlış bilgi yayılması ya da yasa dışı amaçlarla kullanılmasına karşı net bir tutum sergiliyor. Sorumlu kullanım vurgulanırken, etik dışı uygulamalara karşı güçlü bir duruş benimsiyor.
Dia’nın geliştirilmesinde Google TPU Research Cloud, Hugging Face’in ZeroGPU hibe programı ile SoundStorm, Parakeet ve Descript Audio Codec gibi önceki çalışmaların katkısı bulunuyor.
Sadece biri tam zamanlı, diğeri yarı zamanlı iki mühendisten oluşan Nari Labs ekibi, GitHub ve Discord üzerinden topluluk katkılarını da aktif şekilde teşvik ediyor.
İfade kalitesi, yeniden üretilebilirlik ve açık erişime odaklanan Dia, üretken ses teknolojileri alanına özgün ve iddialı bir ses getiriyor.