Yapay Zeka
Tuesday, November 19, 2024
Yapay zeka ses klonlama ve metinden konuşmaya API sağlayan bir girişim olan ElevenLabs, Pazartesi günü diyalogsal yapay zeka botları oluşturma özelliğini başlattı.
Şirket, kullanıcıların artık ElevenLabs'ın geliştirici platformunda ses tonu ve yanıt uzunluğu gibi özelleştirilebilir değişkenlerle eksiksiz konuşma aracıları oluşturabileceklerini duyurdu.
ElevenLabs daha çok metinden sese hizmetleri için farklı sesler ve yapay zeka araçları sağlamak üzerine çalışıyordu. Şirketin büyüme müdürü Sam Sklar, TechCrunch'a verdiği demeçte, müşterilerinin birçoğunun zaten bu yeteneği diyalogsal yapay zeka aracıları oluşturmak için kullandığını söyledi. Ancak, en zor kısımlar bilgi tabanını entegre etmek ve müşterilerden gelen kesintileri ele almaktı. Bu nedenle şirket, diyalog botları için eksiksiz bir boru hattı oluşturmaya karar verdi.
Kullanıcılar ElevenLabs hesaplarına giriş yapabilir ve bir şablon seçerek veya yeni bir proje oluşturarak bir konuşma aracısı oluşturmaya başlayabilir. Temsilcinin kişiliğini belirlemek için temsilcinin birincil dilini, ilk mesajını ve sistem istemini seçebilirler. Geliştiriciler ayrıca büyük bir dil modeli (Gemini, GPT veya Claude), yanıtların sıcaklığı (yanıtın ne kadar yaratıcı olması gerektiğini belirlemek için) ve belirteç kullanım sınırını seçmek zorundadır.
Ayrıca ses, gecikme, kararlılık, kimlik doğrulama kriterleri ve yapay zeka aracısı ile maksimum konuşma süresi gibi diğer hususları da ayarlayabilirler.
Kullanıcılar, konuşma botunu güçlendirmek için bir dosya, URL veya metin bloğu gibi kendi bilgi tabanlarını ekleyebilirler. Ayrıca, kendi özel LLM'lerini bot ile entegre edebilirler. ElevenLabs'ın SDK'sı Python, JavaScript, React ve Swift ile uyumludur. Şirket ayrıca daha fazla özelleştirme için bir WebSocket API sunuyor.
Şirketler ayrıca belirli veri öğelerini (örneğin, temsilciyle konuşan müşterilerin adı ve e-postası) toplamak için kriterler ve çağrının başarısını veya başarısızlığını tanımlamak için doğal dilde değerlendirme kriterleri tanımlayabilirler.
ElevenLabs, metinden konuşmaya bölümü için mevcut boru hattından yararlanıyor. Şirketin yeni diyalogsal yapay zeka ürünü için konuşmadan metne yeteneklerini geliştirmesi gerekiyor. Şirket şu an için konuşmadan metne API'sini tek başına bir ürün olarak sunmuyor, ancak gelecekte bunu yapabilir ve Google, Microsoft ve Amazon'un konuşmadan metne API 'lerinin yanı sıra OpenAI'nin Whisper, AssemblyAI, Deepgram, Speechmatics ve Gladia gibi özel API'lere rakip olabilir.
Yeni fonları 3 milyar doların üzerinde bir değerlemeyle toplamayı hedefleyen şirket, Vapi ve Retell gibi diğer sesli yapay zeka girişimleriyle de rekabet ediyor - onlar da konuşma aracıları geliştiriyor. Daha da önemlisi, şirket OpenAI'nin gerçek zamanlı konuşma API'sine rakip olacak. Ancak ElevenLabs, özelleştirmelerinin ve model değiştirme yeteneğinin OpenAI'ye karşı bir avantaj sağlayacağına inanıyor.