Yapay Zeka

Friday, September 13, 2024

OpenAI, kendi kendini doğrulayabilen bir model olan o1'i tanıttı.

ChatGPT üreticisi OpenAI bir sonraki büyük ürün sürümünü duyurdu: Resmi olarak OpenAI o1 olarak adlandırılan Strawberry kod adlı üretken bir yapay zeka modeli.

Daha kesin olmak gerekirse, o1 aslında bir model ailesi. İki tanesi Perşembe günü ChatGPT'de ve OpenAI'nin API'si aracılığıyla kullanılabilir: o1-preview ve kod oluşturmayı amaçlayan daha küçük, daha verimli bir model olan o1-mini.

ChatGPT istemcisinde o1'i görmek için ChatGPT Plus veya Team'e abone olmanız gerekir. Kurumsal ve eğitim kullanıcıları önümüzdeki hafta başında erişebilecekler.

o1 chatbot deneyiminin şu anda oldukça basit olduğunu unutmayın. GPT-4o'nun aksine, o1'in atası olan o1 henüz web'e göz atamıyor veya dosyaları analiz edemiyor. Modelin görüntü analiz özellikleri var, ancak bunlar ek testler için devre dışı bırakıldı. Ayrıca o1 hız limitli; haftalık limitler şu anda o1-preview için 30 mesaj ve o1-mini için 50 mesaj.

Bir diğer dezavantajı ise, o1'in pahalı olması. Hem de çok pahalı. API'de o1-preview 1 milyon girdi tokenı başına 15 dolar ve 1 milyon çıktı tokenı başına 60 dolar. Bu da GPT-4o'ya kıyasla girdi için 3 kat ve çıktı için 4 kat maliyet anlamına geliyor. (“Jetonlar” ham veri bitleridir; 1 milyon yaklaşık 750.000 kelimeye eşdeğerdir).

OpenAI, ChatGPT'nin tüm ücretsiz kullanıcılarına o1-mini erişimi getirmeyi planladığını ancak bir yayın tarihi belirlemediğini söylüyor.

OpenAI o1, bir sorunun tüm kısımlarını dikkate almak için daha fazla zaman harcayarak kendi kendini etkili bir şekilde kontrol edebildiği için, normalde üretken yapay zeka modellerine çelme takan bazı akıl yürütme tuzaklarından kaçınır. OpenAI'ye göre, o1'i diğer üretken yapay zeka modellerinden niteliksel olarak farklı “hissettiren” şey, sorgulara yanıt vermeden önce “düşünme” yeteneğidir.

“Düşünmesi” için ek süre verildiğinde, o1 bir görevi bütünsel olarak düşünebilir - ileriyi planlayabilir ve modelin bir cevaba ulaşmasına yardımcı olan uzun bir süre boyunca bir dizi eylem gerçekleştirebilir. Bu da o1'i, bir avukatın gelen kutusundaki ayrıcalıklı e-postaları tespit etmek veya bir ürün pazarlama stratejisi üzerinde beyin fırtınası yapmak gibi birden fazla alt görevin sonuçlarının sentezlenmesini gerektiren görevler için çok uygun hale getiriyor.

OpenAI'de araştırmacı bilim insanı olan Noam Brown, Perşembe günü X'te yayınladığı bir dizi yazıda “o1'in pekiştirmeli öğrenme ile eğitildiğini” söyledi. Brown, bunun sisteme “özel bir düşünce zinciri aracılığıyla yanıt vermeden önce ‘düşünmeyi’” öğrettiğini, o1 yanıtları doğru aldığında ödüller, almadığında ise cezalar verdiğini söyledi.

Brown, OpenAI'nin yeni bir optimizasyon algoritmasından ve “muhakeme verileri” ve özellikle muhakeme görevleri için uyarlanmış bilimsel literatür içeren eğitim veri setinden yararlandığını ima etti. “[o1] ne kadar uzun süre düşünürse, o kadar iyi sonuç veriyor” dedi.

OpenAI'ye göre, bir lise matematik yarışması olan Uluslararası Matematik Olimpiyatı (IMO) için yapılan bir eleme sınavında, o1 problemlerin %83'ünü doğru çözerken GPT-4o yalnızca %13'ünü çözdü. (Google DeepMind'ın son yapay zekasının gerçek IMO yarışmasına eşdeğer bir yarışmada gümüş madalya kazandığı düşünüldüğünde bu daha az etkileyici). OpenAI ayrıca o1'in Codeforces olarak bilinen çevrimiçi programlama mücadelesi turlarında katılımcıların 89. yüzdelik dilimine (DeepMind'ın amiral gemisi sistemi AlphaCode 2'den daha iyi) ulaştığını söylüyor.

OpenAI, genel olarak o1'in veri analizi, bilim ve kodlama alanlarındaki sorunlarda daha iyi performans göstermesi gerektiğini söylüyor. (o1'i yapay zeka kodlama asistanı GitHub Copilot ile test eden GitHub, modelin algoritmaları ve uygulama kodunu optimize etme konusunda becerikli olduğunu bildiriyor). Ayrıca, en azından OpenAI'nin kıyaslamasına göre, o1 çok dilli becerilerinde, özellikle de Arapça ve Korece gibi dillerde GPT-4o'ya göre daha iyi.

Wharton'da yönetim profesörü olan Ethan Mollick, kişisel blogunda bir ay boyunca kullandıktan sonra o1 hakkındaki izlenimlerini yazdı. Zorlu bir bulmacada o1'in iyi iş çıkardığını ve tüm cevapları doğru verdiğini söyledi.