OpenAI Perşembe günü yaptığı açıklamada, API’sinin artık geliştiricilerin kullanıcılarla konuşabilen, konuşmaları yazıya dökebilen ve çevirebilen uygulamalar oluşturmasına yardımcı olmak üzere tasarlanan bir dizi yeni sesli zeka özelliği içereceğini duyurdu.
Şirketin yeni GPT-Realtime-2 modeli, kullanıcılarla etkileşim kurabilen gerçekçi bir ses simülasyonu oluşturmak üzere geliştirilen bir başka ses modeli olarak sunuluyor ancak selefi GPT-Realtime-1.5’ten farklı olarak bu model, OpenAI’ın kullanıcıların daha karmaşık taleplerini karşılamak için geliştirdiğini söylediği GPT-5 sınıfı akıl yürütme yeteneğiyle donatıldı.
Şirket ayrıca, adından da anlaşılacağı gibi, kullanıcıyla konuşma sırasında “ayak uyduran” gerçek zamanlı çeviri hizmetleri sağlamak üzere tasarlanan GPT-Realtime-Translate özelliğini kullanıma sunuyor. Bu özellik, sistemin anlayabildiği 70’ten fazla giriş dilini ve konuşmacıya aktarabildiği 13 çıkış dilini kapsıyor.
Son olarak şirket, etkileşimler gerçekleştikçe yakalanan canlı konuşmadan metne dönüştürme yeteneği sağlayan yeni bir deşifre özelliği olan GPT-Realtime-Whisper‘ı başlattı.
Şirket, “Piyasaya sürdüğümüz modeller, gerçek zamanlı sesi basit bir soru-cevap mantığından çıkarıp gerçekten iş yapabilen sesli arayüzlere dönüştürüyor: dinliyor, akıl yürütüyor, çeviriyor, yazıya döküyor ve konuşma ilerledikçe harekete geçiyor.” açıklamasında bulundu.
Peki bu güncellemeler kimlerin işine yarayacak? Müşteri hizmetleri kapasitesini genişletmek isteyen şirketler en belirgin hedef kitleyi oluşturuyor. Bununla birlikte OpenAI; yeni özelliklerin eğitim, medya, etkinlikler ve içerik üretici platformları başta olmak üzere pek çok alanda yardımcı olacağını belirtiyor.
Söz konusu araçlar kurumsal açıdan ne kadar kullanışlı görünse de kötüye kullanım riski de taşıyor. Şirket, yeni özelliklerin spam, dolandırıcılık veya diğer çevrimiçi suistimaller için kullanılmasını engellemek amacıyla güvenlik bariyerleri oluşturduğunu ifade etti. OpenAI, “konuşmaların zararlı içerik yönergelerini ihlal ettiği tespit edilirse durdurulabilmesi” için sisteme belirli tetikleyiciler yerleştirdi.
Yeni ses modellerinin tamamı OpenAI’ın Realtime API‘sine dahil edildi. Translate ve Whisper dakika üzerinden, GPT-Realtime-2 ise jeton tüketimi üzerinden faturalandırılıyor.
Kaynak: https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/
