Yapay Zeka

24/4/2025

Yeni Açık Kaynak TTS Modeli Dia, ElevenLabs ve OpenAI'ye Rakip Olarak Sahneye Çıktı

Nari Labs adlı iki kişilik bir girişim, metinden sese (TTS) dönüşüm alanında büyük iddia taşıyan yeni açık kaynak modeli Dia’yı tanıttı. 1,6 milyar parametreye sahip olan model, doğrudan metin girdilerinden doğal diyaloglar üretecek şekilde tasarlandı. Geliştiricilerden Toby Kim’e göre Dia, ElevenLabs, OpenAI’nin yakın zamanda tanıttığı gpt-4o-mini-tts ve Google’ın sesli içerik üretiminde öne çıkan NotebookLM platformu gibi rakiplerini geride bırakıyor.

Toby Kim, sosyal medya platformu X’te yaptığı paylaşımda “Dia, NotebookLM’nin podcast özelliğine rakip olurken, ElevenLabs Studio ve Sesame’nin açık modelini kalite açısından aşıyor.” dedi. Ayrı bir gönderide ise modelin “hiçbir finansman olmadan” geliştirildiğini belirterek şöyle devam etti: “…başlangıçta YZ uzmanı değildik. Her şey geçen yıl NotebookLM’nin podcast özelliğine hayran kalmamızla başladı. Daha fazlasını istedik — sesler üzerinde daha fazla kontrol, senaryo konusunda daha fazla özgürlük. Piyasadaki tüm TTS API’lerini denedik. Hiçbiri gerçek bir insan konuşması gibi değildi.”

Kim, Google’ın Research Cloud üzerinden sunduğu Tensor İşlem Birimi (TPU) erişimi sayesinde Dia’nın eğitiminin mümkün olduğunu da vurguladı.

Modelin kodları ve ağırlıkları — yani modelin iç bağlantı seti — Hugging Face veya GitHub üzerinden indirilebiliyor. Kullanıcılar ayrıca Hugging Face Space üzerinden yerel kurulum yapmadan deneme gerçekleştirebiliyor.

Gelişmiş Özellikler ve Kullanım Esnekliği

Dia, metin üzerinden duygusal tonlama, konuşmacı etiketleme ve sözsüz ses işaretleri gibi incelikli öğeleri destekliyor. Kullanıcılar metinde [S1], [S2] gibi etiketlerle konuşmacı değişimlerini işaretleyebilirken, (laughs), (coughs), (clears throat) gibi yönlendirmelerle diyaloglara jest ve mimik katkısı sağlayabiliyor. Nari Labs’ın örnek sayfasına göre, bu tür işaretlemeleri doğru şekilde yorumlayabilen sayılı modellerden biri.

Şu an yalnızca İngilizce dili destekleniyor. Dia, varsayılan olarak sabit bir ses kullanmıyor; her çalıştırmada farklı sesler üretiyor. Ancak kullanıcılar ses klibi yükleyerek ton ve benzerliği yönlendirebiliyor. Bu amaçla Nari Labs, ses örneğiyle koşullandırma (voice conditioning) için örnek kodlar ve Gradio tabanlı bir demo sunuyor.

ElevenLabs ve Sesame ile Karşılaştırma

Nari Labs, Dia’nın performansını ElevenLabs Studio ve Oculus VR başmühendisi Brendan Iribe’nin geliştirdiği Sesame CSM-1B ile karşılaştırmalı olarak Notion sayfasında yayınladı. Paylaşılan örneklerde, Dia’nın şu alanlarda öne çıktığı görülüyor:

  • Doğal zamanlama ve sözsüz ifadeler: Metin sonunda (laughs) etiketi olduğunda, ElevenLabs ve Sesame “haha” gibi yazılı ifadeler üretirken, Dia gerçek kahkaha sesi oluşturuyor.

  • Duygusal geçişler: Duygusal yoğunluğu yüksek bir acil durum senaryosunda Dia, karakterlerin stresini ses tonuna yansıtmakta başarılı olurken, rakip modeller ses tonlamasını düz veya dengesiz sunuyor.

  • Sözsüz diyaloglar: Öksürük, burun çekme ve gülme gibi yalnızca sözsüz tepkilerden oluşan senaryolarda Dia bu işaretleri algılayıp üretirken, diğer modeller ya tanımıyor ya da atlıyor.

  • Ritmik içerik: Rap gibi ritme dayalı içeriklerde Dia, akıcı ve tempolu bir söyleyiş sunarken, rakipler çoğunlukla tekdüze ya da kopuk sonuçlar veriyor.

  • Ses uzatma: Ses örneğiyle yapılan koşullandırmalarda, model örnek sesin özelliklerini sonraki diyaloglarda koruyabiliyor. Rakiplerde bu özellik zayıf ya da mevcut değil.

Bazı testlerde, Sesame’nin kamuya açık sürümünde kullanılan 1B modelin, aslında 8B iç modelden alınmış örneklerle karşılaştırıldığı düşünülüyor. Bu da performans farklarını açıklayabiliyor.

Teknik Özellikler ve Erişim

Dia, PyTorch 2.0+ ve CUDA 12.6 ile çalışıyor. Kullanım için yaklaşık 10 GB VRAM yeterli. NVIDIA A4000 gibi kurumsal düzeyde GPU'lar ile saniyede yaklaşık 40 token işleyebiliyor. Şu an yalnızca GPU üzerinde çalışabilen model için CPU desteği ve kuantize edilmiş bir sürüm planlanıyor.

Geliştiriciler için bir Python kütüphanesi ve komut satırı aracı da sunulmuş durumda.

Dia’nın esnekliği, içerik üretiminden yardım teknolojilerine, sentetik seslendirmeden yaratıcı projelere kadar pek çok alanda kullanılmasına olanak tanıyor. Nari Labs, aynı zamanda gündelik kullanıcıların oluşturduğu sesli diyalogları paylaşabileceği bir tüketici sürümü üzerinde de çalışıyor. Erken erişim için e-posta yoluyla bekleme listesine kayıt olunabiliyor.

Açık Kaynak Lisans ve Sorumluluk İlkesi

Model, ticari kullanım dahil olmak üzere geniş kapsam sunan Apache 2.0 açık kaynak lisansı altında yayımlandı. Ancak Nari Labs, ses klonlamayla birey taklidi yapılması, yanlış bilgi yayılması ya da yasa dışı amaçlarla kullanılmasına karşı net bir tutum sergiliyor. Sorumlu kullanım vurgulanırken, etik dışı uygulamalara karşı güçlü bir duruş benimsiyor.

Dia’nın geliştirilmesinde Google TPU Research Cloud, Hugging Face’in ZeroGPU hibe programı ile SoundStorm, Parakeet ve Descript Audio Codec gibi önceki çalışmaların katkısı bulunuyor.

Sadece biri tam zamanlı, diğeri yarı zamanlı iki mühendisten oluşan Nari Labs ekibi, GitHub ve Discord üzerinden topluluk katkılarını da aktif şekilde teşvik ediyor.

İfade kalitesi, yeniden üretilebilirlik ve açık erişime odaklanan Dia, üretken ses teknolojileri alanına özgün ve iddialı bir ses getiriyor.







Kaynak:https://venturebeat.com/ai/a-new-open-source-text-to-speech-model-called-dia-has-arrived-to-challenge-elevenlabs-openai-and-more/