OpenAI, GPT-4o Destekli Görüntü Oluşturma Özelliğini ChatGPT'ye Entegre Ediyor

OpenAI, ChatGPT'ye doğrudan entegre edilen yeni bir görüntü oluşturma özelliğini duyurdu: “ChatGPT’de Görseller”. Kullanıcılar artık GPT-4o’yu kullanarak ChatGPT içinde görüntü üretebilecek. İlk etapta yalnızca görüntü üretmeye odaklanan özellik; Plus, Pro, Team ve Free abonelik katmanlarında erişilebilir olacak. Ücretsiz katmandaki kullanım sınırı, DALL-E ile aynı olacak. OpenAI sözcüsü Taya Christianson, The Verge'e yaptığı açıklamada “paylaşacak belirli bir sayı yok” diyerek sınırların talebe bağlı olarak değişebileceğini belirtti. ChatGPT SSS’ye göre ücretsiz kullanıcılar daha önce günde üç DALL·E 3 görseli üretebiliyordu. Christianson ayrıca DALL-E'nin “hayranlarının, özel bir GPT aracılığıyla hâlâ erişim sağlayabileceğini” söyledi.

Araştırma lideri Gabriel Goh, The Verge'e yaptığı açıklamada “Bu model, önceki modellere göre büyük bir sıçrama.” ifadelerini kullandı ve ekledi: “Görseller için kullandığımız temel, GPT-4o’nun ‘omnimodal’ yapısı. Yani yalnızca metin değil, görsel, ses ve video da üretebiliyor.”

Goh’un vurguladığı iyileştirmelerden biri “bağlama” yeteneği. Bu özellik, YZ görüntü modellerinin nitelikleri nesnelere doğru şekilde atamasını sağlıyor. Goh, önceki modellerin “mavi yıldız ve kırmızı üçgen” gibi istemlerde karışıklık yaşadığını, ancak yeni sistemin 15 ila 20 nesnede doğru eşleşme yapabildiğini söyledi. Ayrıca metin oluşturmadaki iyileştirme de dikkat çekici. Küçük yazıların bulanık veya hatalı olması gibi yaygın sorunların büyük oranda azaltıldığını ifade eden Goh, “Bu süreci doğru yapmak aylar sürdü.” dedi.

ChatGPT'nin “ bağlayıcı” yeteneklerindeki görüntülere bir örnek.

Yeni sistem, görüntüleri diğer modellerde olduğu gibi difüzyon yerine otoregresif yaklaşımla, yani soldan sağa ve yukarıdan aşağıya doğru sırayla üretiyor. Bu yöntem, daha doğru metin üretimi ve nitelik eşleşmesi sağlayabiliyor. Tanıtım öncesinde yapılan basın toplantısında, doğru etiketlenmiş Newton’un prizma deneyinden çizgi romanlara, bilgi afişlerinden şeffaf arka planlı çıkartmalara kadar farklı içerikler başarıyla gösterildi. ChatGPT çok modlu ürün lideri Jackie Shannon şunu söyledi: “Bir görsel çizmek istediğimde, kendi yeteneğim kadar ama aynı zamanda dünya hakkında edindiğim bilgilerle hareket ederim. Model, dünya bilgisini sürece katıyor. Newton’un prizma deneyini sormak istediğinizde, ne olduğunu açıklamak zorunda kalmadan görseli sunabiliyor.”

Yeni sistemin görüntü üretmesi daha uzun sürse de OpenAI, bu gecikmenin kaliteli görsel ve bilgi zenginliğiyle dengelendiğini düşünüyor. Shannon: “Elbette gecikme süresi açısından gelişim alanı var fakat görsellerin kalitesi, yetenekleri ve bilgi düzeyi beklemeye değer.” dedi.

ChatGPT'nin tutarlı metin üretme becerisine bir örnek.

Güvenlik önlemleri hakkında yöneltilen sorularda — Microsoft’un modelinden üretilen Taylor Swift çıplak sahte görselleri, xAI’nin Kamala Harris'i silahla gösterme yetisi, Google Gemini’nin filigran kaldırma sorunları gibi — OpenAI, sistemin kötüye kullanımını engelleyecek sağlam güvenlik önlemlerine sahip olduğunu belirtti. Shannon, aracın filigran kaldırmayı engellediğini, cinsel içerikli sahte görselleri ve CSAM üretim taleplerini reddettiğini söyledi.

Yeni sistem, görseller üzerinde açıkça görülebilen dijital filigranlar içermese de Shannon, “OpenAI tarafından oluşturulduğunu belirten standart C2PA meta verileriyle tüm görseller işaretlenecek.” dedi. Ayrıca şirketin iç denetim araçları da olacak.

Shannon ekledi: “Sonuçta bu tür içerikler için hiçbir sistem tamamen kusursuz değil ancak güvenlik önlemlerimizi sürekli geliştiriyoruz ve bunu bir başlangıç noktası olarak görüyoruz. ChatGPT ile oluşturulan tüm görsellerin hakları kullanıcıya ait ve kullanım politikalarımız çerçevesinde diledikleri gibi kullanabilirler.”

Newton'un prizma deneyi Washington Square Park'ta bir not defterine işlendi.

Kaynak: https://www.theverge.com/openai/635118/chatgpt-sora-ai-image-generation-chatgpt