1. Anasayfa
  2. Yapay Zeka

Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı

Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı
0

Thinking Machines Lab, sesli YZ sistemlerini geleneksel soru-cevap kalıplarından kurtarmak için tasarlanan ilk modelinin araştırma önizlemesini yayımladı. Model; ses, video ve metni paralel olarak 200 milisaniyelik dilimlerle işliyor. Girişim, etkileşim kalitesi açısından OpenAI’ın GPT-Realtime-2 ve Google’ın Gemini Live modellerini geride bıraktığını iddia ediyor. 

Şirket, “Interaction Models” adını verdiği bu yapının etkileşimi harici bir destek mekanizması yerine doğrudan bünyesinde yönettiğini söylüyor. Temel fikir, etkileşimin sadece sonradan eklenen bir özellik değil, zekayla birlikte ölçeklenmesi gereken bir unsur olması.

Mevcut Sesli YZ Sistemleri Hala Robotik Hissettiriyor

Bugünün GPT-Realtime veya Gemini Live gibi gerçek zamanlı sistemleri sesi sürekli alıyor ancak asıl dil modeli bu veriyi doğrudan görmüyor. Thinking Machines’e göre, modelin önünde ses etkinliği algılayıcı gibi ayrı bileşenlerden oluşan bir “düzenek” bulunuyor. Bu düzenek, konuşmacının sırasının ne zaman bittiğine karar veriyor. Ancak o zaman tamamlanan ifade modele aktarılıyor ve model bütün bir yanıt oluşturuyor. Model konuşurken algısı donuyor; konuşması bitene veya sözü kesilene kadar yeni bilgi almıyor.

Söz konusu bileşenler modelin kendisinden çok daha az zeki. Thinking Machines, bu durumun gerçek bir sohbeti tanımlayan davranışların çalışmasını engellediğini savunuyor. Örneğin; yanlış bir şey söylendiğinde araya girme, görsel ipuçlarına tepki verme veya canlı çeviri sırasında aynı anda konuşma gibi işlevler geleneksel sistemlerde yapılamıyor. Lab, Sutton’ın “Bitter Lesson”ına atıfta bulunarak, bu el yapımı sistemlerin zamanla genel yeteneklerin ilerlemesiyle geride kalacağını savunuyor. Şirketin yaklaşımı, benzer şekilde iç içe geçmiş bir düzende çalışan ancak zeka kriterlerinden ziyade gecikmeye odaklanan Moshi veya Nemotron VoiceChat gibi tam çift yönlü (full-duplex) modellere benziyor.

Yapay Sıra Sınırlarının Yerini 200 Milisaniyelik Bir Saat Alıyor

Mevcut mimarilerden asıl kopuş, ekibin “zaman hizalı mikro turlar” dediği sistemle gerçekleşiyor. Model, sürekli olarak 200 milisaniyelik girdiyi işliyor ve 200 milisaniyelik çıktı üretiyor. Girdi ve çıktı artık ardışık gerçekleşmiyor, aynı saat döngüsünü paylaşıyor.

Bu durum yapay sıra sınırlarını ortadan kaldırarak modelin sessiz kalmaya, araya girmeye veya kullanıcıyla aynı anda konuşmaya kendi başına karar vermesini sağlıyor. Veriler, büyük ve bağımsız kodlayıcılar yerine doğrudan transformere aktarılıyor. Böylelikle gecikme azalıyor ancak metin okuma gibi ince görsel ayrıntıları yakalama yeteneği de kısıtlanabiliyor. Gerçek zamanlı bir modelin her 200 milisaniyede bir yanıt vermesi gerektiği için aynı anda derinlemesine düşünmesi veya internette arama yapması zorlaşıyor. Thinking Machines, etkileşim modelini akıl yürütme ve araştırma gibi uzun süreli görevleri yürüten ikinci bir arka plan modeliyle eşleştirerek bu sorunu çözüyor.

Her iki model de aynı konuşma bağlamını paylaşıyor. Etkileşim modeli bir yandan sohbeti sürdürürken diğer yandan görevleri devrediyor. Arka plan modelinden gelen sonuçları, ani bir konu değişikliği yapmak yerine kullanıcının o anki eylemine uygun bir anda sohbete dahil ediyor. Hedef, hızlı bir modelin tepki hızıyla bir akıl yürütme modelinin derinliğini birleştirmek.

Karşılaştırmalı Testler Yaklaşımın İşe Yaradığını Gösteriyor

Modelin adı TML-Interaction-Small. Model, 276 milyar parametreli bir mixture-of-experts yapısı kullanıyor ve 12 milyar aktif parametreyle çalışıyor. Kullanıcı kesintileri, dinlediğini gösteren kısa tepkiler ve arka plan konuşması gibi senaryolarda etkileşim kalitesini ölçen FD-bench v1.5 testinde model, OpenAI’ın GPT-Realtime-2 ve Google’ın Gemini-3.1-flash-live modellerini belirgin biçimde geride bırakıyor. Yanıt gecikmesi 0,40 saniye olarak ölçülüyor. Bu süre GPT-Realtime-2 için minimum 1,18 saniye, Gemini için ise 0,57 saniye

Zeka ve talimat takibini ölçen Audio MultiChallenge testlerinde model %43,4 puan topluyor; bu sonuç rakiplerinin hızlı sürümlerini geride bıraksa da %48,5 puan alan GPT-Realtime-2’nin “xhigh” düşünme modunun gerisinde kalıyor. Şirket, zaman farkındalığı (TimeSpeak, CueSpeak) ve görsel proaktiflik (RepCount-A, ProactiveVideoQA, Charades) testlerinde mevcut hiçbir modelin anlamlı bir başarı gösteremediğini bildiriyor. Test edilen rakipler bu senaryolarda ya sessiz kalıyor ya da yanlış cevaplar veriyor. 

Kanıtlayacak Çok Şeyi Olan 2 Milyar Dolarlık Bir Girişim

Thinking Machines Lab, Şubat 2025’te Mira Murati ve diğer eski OpenAI araştırmacıları tarafından kuruldu. Şirket, Temmuz 2025’te henüz bir ürünü olmadan 12 milyar dolar değerleme üzerinden 2 milyar dolarlık tohum yatırım turunu kapattı. 2025’in sonuna kadar yaklaşık 50 milyar dolar değerleme üzerinden yürütüldüğü bildirilen devam yatırım turu ise sonuçlanmadı ve o tarihten bu yana birkaç kilit çalışan şirketten ayrıldı. Interaction Model, Murati’nin OpenAI, Anthropic ve Google DeepMind’ın yanında gerçek bir rakip kurabileceği iddiasını destekleyen ilk kurum içi YZ modeli oldu. 

Bundan önce şirket, geliştiricilerin dağıtık eğitimle uğraşmadan LoRA kullanarak açık modelleri verimli biçimde ince ayar yapmasını sağlayan Tinker adlı aracı yayınlamıştı.

Kaynak: https://the-decoder.com/thinking-machines-lab-ships-its-first-model-and-argues-interactivity-is-what-openai-gets-wrong-about-voice/
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 0
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir