Yapay Zeka
24/3/2025
OpenAI, API hizmeti kapsamında sunduğu konuşma tanıma ve ses üretim modellerini yenileyerek performansını artırdığını duyurdu. Şirket, yeni modellerin önceki sürümlere göre önemli iyileştirmeler sunduğunu belirtti.
OpenAI'nin bu adımı, daha geniş çaplı “ajan” (agentic) vizyonunun bir parçası olarak değerlendiriliyor böylelikle kullanıcılar adına görevleri bağımsız şekilde yerine getirebilen otomatik sistemler oluşturmayı amaçlıyor. “Ajan” tanımı üzerinde hâlâ farklı yorumlar bulunsa da, OpenAI Ürün Direktörü Olivier Godement, kavramı bir işletmenin müşterileriyle konuşabilen bir sohbet botu olarak tanımladı. “Önümüzdeki aylarda daha fazla ajan ortaya çıkacak. Genel hedefimiz, müşterilerin ve geliştiricilerin faydalı, erişilebilir ve doğru ajanları kullanmasını sağlamak.” dedi.
Yeni metinden sese modeli olan “gpt-4o-mini-tts”, OpenAI’ye göre yalnızca daha doğal ve incelikli sesler üretmekle kalmıyor, aynı zamanda önceki modellerden daha “yönlendirilebilir”. Geliştiriciler artık modele doğal dilde, örneğin “çılgın bir bilim insanı gibi konuş” ya da “bir meditasyon eğitmeni gibi sakin bir sesle konuş” gibi yönergeler verebiliyor.
İşte“mafya tarzı”, yıpranmış bir ses örneği:
OpenAI ürün ekibinden Jeff Harris, “Amacımız, geliştiricilerin hem ses deneyimini hem de bağlamı özelleştirmesine imkan tanımak.” diyerek şu ifadeleri kullandı: “Farklı bağlamlarda, düz ve tekdüze bir ses istemezsiniz. Müşteri hizmetleri gibi bir senaryoda, ses bir hata sonrası özür diliyorsa, gerçekten o duyguyu yansıtabilmeli. Bizim en güçlü inancımız, geliştiricilerin ve kullanıcıların sadece ne söylendiğini değil, nasıl söylendiğini de kontrol etmek istemesi.”
Ve işte “profesyonel” bir kadın sesi örneği:
Metinden yazıya dönüşüm tarafında ise, “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” adını taşıyan yeni modeller, şirketin uzun süredir kullandığı Whisper modelinin yerini alacak. OpenAI, yeni modellerin “çeşitli ve yüksek kaliteli ses veri setleriyle” eğitildiğini ve aksanlı veya değişken konuşmaları, hatta gürültülü ortamlarda bile daha doğru şekilde yakalayabildiğini açıkladı.
Jeff Harris, önceki modellerle karşılaştırıldığında, bu yeni sistemlerin halüsinasyon (uydurma) üretme olasılığının çok daha düşük olduğunu belirtti. Whisper’ın geçmişte zaman zaman kelime ve hatta tüm paragraflar uydurduğu, ırkçı söylemlerden hayali tıbbi tavsiyelere kadar çeşitli yanlış içerikler sunduğu biliniyordu. “Bu modeller, Whisper’a kıyasla bu konuda çok daha gelişmiş. Ses deneyiminde güvenilirlik için doğruluk temel şarttır; doğruluk da modelin tam olarak duyduğu kelimeleri yansıtması ve duymadığı detayları eklememesi anlamına gelir.” dedi fakat transkripsiyonun başarısı kullanılan dile göre değişkenlik gösterebiliyor. OpenAI’nin kendi iç testlerine göre, Indic ve Dravidian dilleri (örneğin Tamilce, Teluguca, Malayalamca ve Kannadaca) için gpt-4o-transcribe modelinin kelime hatası oranı, yüzde 30’a yakın. Bu, her 10 kelimeden 3’ünün insan transkripsiyonuna göre farklı olabileceği anlamına geliyor.
OpenAI, söz konusu transkripsiyon modellerini açık kaynak olarak sunmayı planlamıyor. Şirket, geçmişte Whisper’ın çeşitli sürümlerini MIT lisansı altında ticari kullanıma açmıştı ancak gpt-4o-transcribe ve gpt-4o-mini-transcribe, çok daha büyük modeller olduğundan, yerel cihazlarda çalıştırmak için uygun olmadığı belirtildi.
Jeff Harris, “Bu modeller, Whisper gibi dizüstü bilgisayarda çalıştırılabilecek türden değil.” diyerek şu ifadeyi kullandı: “Açık kaynaklı yayınlar yaparken bunu düşünerek, özel ihtiyaçlar için geliştirilmiş modelleri paylaşmamız gerektiğine inanıyoruz. Son kullanıcı cihazları, açık kaynak modeller için en ilginç kullanım alanlarından biri.”
Not: 20 Mart 2025, 11:54 PT itibarıyla, kelime hatası oranı ve karşılaştırma tabloları daha güncel versiyonla güncellendi.
Kaynak: https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/