OpenAI, Konuşma ve Ses Modellerini Yeniledi: gpt-4o-mini-tts ve gpt-4o-transcribe Kullanıma Sunuldu

OpenAI, API hizmeti kapsamında sunduğu konuşma tanıma ve ses üretim modellerini yenileyerek performansını artırdığını duyurdu. Şirket, yeni modellerin önceki sürümlere göre önemli iyileştirmeler sunduğunu belirtti.

OpenAI'nin bu adımı, daha geniş çaplı “ajan” (agentic) vizyonunun bir parçası olarak değerlendiriliyor böylelikle kullanıcılar adına görevleri bağımsız şekilde yerine getirebilen otomatik sistemler oluşturmayı amaçlıyor. “Ajan” tanımı üzerinde hâlâ farklı yorumlar bulunsa da, OpenAI Ürün Direktörü Olivier Godement, kavramı bir işletmenin müşterileriyle konuşabilen bir sohbet botu olarak tanımladı. “Önümüzdeki aylarda daha fazla ajan ortaya çıkacak. Genel hedefimiz, müşterilerin ve geliştiricilerin faydalı, erişilebilir ve doğru ajanları kullanmasını sağlamak.” dedi.

Yeni metinden sese modeli olan “gpt-4o-mini-tts”, OpenAI’ye göre yalnızca daha doğal ve incelikli sesler üretmekle kalmıyor, aynı zamanda önceki modellerden daha “yönlendirilebilir”. Geliştiriciler artık modele doğal dilde, örneğin “çılgın bir bilim insanı gibi konuş” ya da “bir meditasyon eğitmeni gibi sakin bir sesle konuş” gibi yönergeler verebiliyor.

İşte“mafya tarzı”, yıpranmış bir ses örneği:

image caption here (optional)

‍

OpenAI ürün ekibinden Jeff Harris, “Amacımız, geliştiricilerin hem ses deneyimini hem de bağlamı özelleştirmesine imkan tanımak.” diyerek şu ifadeleri kullandı: “Farklı bağlamlarda, düz ve tekdüze bir ses istemezsiniz. Müşteri hizmetleri gibi bir senaryoda, ses bir hata sonrası özür diliyorsa, gerçekten o duyguyu yansıtabilmeli. Bizim en güçlü inancımız, geliştiricilerin ve kullanıcıların sadece ne söylendiğini değil, nasıl söylendiğini de kontrol etmek istemesi.”

Ve işte “profesyonel” bir kadın sesi örneği:

‍

Metinden yazıya dönüşüm tarafında ise, “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” adını taşıyan yeni modeller, şirketin uzun süredir kullandığı Whisper modelinin yerini alacak. OpenAI, yeni modellerin “çeşitli ve yüksek kaliteli ses veri setleriyle” eğitildiğini ve aksanlı veya değişken konuşmaları, hatta gürültülü ortamlarda bile daha doğru şekilde yakalayabildiğini açıkladı.

Jeff Harris, önceki modellerle karşılaştırıldığında, bu yeni sistemlerin halüsinasyon (uydurma) üretme olasılığının çok daha düşük olduğunu belirtti. Whisper’ın geçmişte zaman zaman kelime ve hatta tüm paragraflar uydurduğu, ırkçı söylemlerden hayali tıbbi tavsiyelere kadar çeşitli yanlış içerikler sunduğu biliniyordu. “Bu modeller, Whisper’a kıyasla bu konuda çok daha gelişmiş. Ses deneyiminde güvenilirlik için doğruluk temel şarttır; doğruluk da modelin tam olarak duyduğu kelimeleri yansıtması ve duymadığı detayları eklememesi anlamına gelir.” dedi fakat transkripsiyonun başarısı kullanılan dile göre değişkenlik gösterebiliyor. OpenAI’nin kendi iç testlerine göre, Indic ve Dravidian dilleri (örneğin Tamilce, Teluguca, Malayalamca ve Kannadaca) için gpt-4o-transcribe modelinin kelime hatası oranı, yüzde 30’a yakın. Bu, her 10 kelimeden 3’ünün insan transkripsiyonuna göre farklı olabileceği anlamına geliyor.

OpenAI, söz konusu transkripsiyon modellerini açık kaynak olarak sunmayı planlamıyor. Şirket, geçmişte Whisper’ın çeşitli sürümlerini MIT lisansı altında ticari kullanıma açmıştı ancak gpt-4o-transcribe ve gpt-4o-mini-transcribe, çok daha büyük modeller olduğundan, yerel cihazlarda çalıştırmak için uygun olmadığı belirtildi.

Jeff Harris, “Bu modeller, Whisper gibi dizüstü bilgisayarda çalıştırılabilecek türden değil.” diyerek şu ifadeyi kullandı: “Açık kaynaklı yayınlar yaparken bunu düşünerek, özel ihtiyaçlar için geliştirilmiş modelleri paylaşmamız gerektiğine inanıyoruz. Son kullanıcı cihazları, açık kaynak modeller için en ilginç kullanım alanlarından biri.”

Not: 20 Mart 2025, 11:54 PT itibarıyla, kelime hatası oranı ve karşılaştırma tabloları daha güncel versiyonla güncellendi.

‍

Kaynak: https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

İlginizi Çekebilir

Yapay Zeka

Apr 2025

Apple, Sağlık Uygulamasına Entegre Edilecek Yapay Zeka Doktoru Üzerinde Çalışıyor

Yapay Zeka

Apr 2025

Flört Etmeyi Yapay Zekadan Öğren: Tinder, OpenAI Destekli Oyununu Tanıttı

Yapay Zeka

Mar 2025

Elon Musk, xAI'nin X’i Satın Aldığını Duyurdu

Yapay Zeka

Mar 2025

Yapay Zeka Onlarca Yıldır Göz Ardı Edilen Yerlerde Kritik Mineraller Keşfetti

Yapay Zeka

Mar 2025

TCDD’nin Yapay Zeka Destekli Erken Uyarı Sistemi ile Demir Yolu Güvenliği Sağlanıyor

Bu Websitesi'nin Dönüşmleri

Pinetent Digital Agency

OpenAI, Konuşma ve Ses Modellerini Yeniledi: gpt-4o-mini-tts ve gpt-4o-transcribe Kullanıma Sunuldu

İlginizi Çekebilir

Apple, Sağlık Uygulamasına Entegre Edilecek Yapay Zeka Doktoru Üzerinde Çalışıyor

Flört Etmeyi Yapay Zekadan Öğren: Tinder, OpenAI Destekli Oyununu Tanıttı

Elon Musk, xAI'nin X’i Satın Aldığını Duyurdu

Yapay Zeka Onlarca Yıldır Göz Ardı Edilen Yerlerde Kritik Mineraller Keşfetti

TCDD’nin Yapay Zeka Destekli Erken Uyarı Sistemi ile Demir Yolu Güvenliği Sağlanıyor

Kategoriler

Kurumsal

En Önce Sizin Haberiniz Olsun!