Yapay Zeka
14/3/2025
Google, Gemini 3'ü duyurmasının yanı sıra, Gemini 2.0 Flash modelini de kullanıcılarla buluşturarak yapay zeka alanında büyük bir adım attı. Gemini 2.0 Flash, yerel görüntü oluşturma yeteneğine sahip ilk büyük ABD merkezli yapay zeka modeli olarak öne çıkıyor. Daha önceki yapay zeka görüntü üretim modelleri, büyük dil modelleri (LLM) ile ayrı çalışan difüzyon modellerine dayanıyordu. Ancak Google’ın yeni modeli, metin girdisiyle doğrudan aynı model içinde görüntü üretebilme yeteneğine sahip, böylece daha yüksek doğruluk ve gelişmiş yetenekler sunuyor.
Google, Gemini 2.0 Flash'ı ilk olarak Aralık 2024'te duyurmuştu ancak yerel görüntü üretimi özelliği kullanıcılara sunulmamıştı. Şimdi ise, Google AI Studio ve Gemini API üzerinden geliştiricilere ücretsiz olarak sunulan bu yeni model, çok modlu girişleri, gelişmiş mantıksal çıkarımı ve doğal dil anlayışı ile görseller oluşturabiliyor.
Gemini 2.0 Flash'in yeni sürümü olan gemini-2.0-flash-exp, geliştiricilere daha fazla yaratıcılık ve düzenleme imkanı sağlıyor. Kullanıcılar bu modelle çizimler oluşturabilir, görüntüleri konuşarak düzenleyebilir ve dünya bilgisini kullanarak daha detaylı görseller üretebilir.
Google’ın geliştiricilere yönelik blog yazısında, Gemini 2.0 Flash’in benzersiz yetenekleri şu şekilde sıralanıyor:
Google çalışanları ve yapay zeka tutkunları, Gemini 2.0 Flash’in yeni özelliklerini X (eski adıyla Twitter) üzerinden paylaşarak modelin sunduğu olanakları sergiledi. Yapay zeka ve teknoloji eğitimcisi Paul Couvert, “Gemini 2.0 Flash ile sadece üretilen görselleri değil, var olan görselleri de doğal dil komutlarıyla düzenleyebiliyorsunuz.” diyerek modelin esnekliğini öne çıkardı.
Diğer kullanıcılar da modeli test ederek şunları paylaştı:
Google AI Studio ürün sorumlusu Logan Kilpatrick, modelin sunduğu sohbet tabanlı düzenleme aracına dikkat çekerek, 3D bebek keçi görsellerinin oluşturulabildiğini ve kullanıcıların hikayelerini etkileşimli bir şekilde genişletebileceğini belirtti.
Gemini 2.0 Flash’in hızlı yayılması, Google’ın OpenAI’ye karşı stratejik bir hamlesi olarak görülüyor. OpenAI, Mayıs 2024’te GPT-4o modelini duyurmuş ve yerel görüntü oluşturma yeteneğini tanıtmıştı fakat bu özellik hâlâ kullanıcılara sunulmadı ve yalnızca demo olarak kaldı. Google, bu fırsattan yararlanarak multimodal yapay zeka alanında liderliği ele geçirmeyi hedefliyor.
X platformundaki bir kullanıcı olan @chatgpt21 (Chris), OpenAI’nin bu özelliği bir yıl önce duyurduğunu ve hala yayına almadığını vurgulayarak, “OpenAI, bu konuda 1+ yıllık avantajını kaybetti.” yorumunu yaptı.
Gemini 2.0 Flash’in yalnızca bireysel kullanıcılar için değil, kurumsal müşteriler ve geliştiriciler için de önemli avantajlar sunduğu belirtiliyor. Modelin öne çıkan iş dünyası uygulamaları şunlar:
Geliştiriciler, Gemini 2.0 Flash’in görüntü üretme yeteneklerini Google AI Studio ve Gemini API aracılığıyla test edebilir. Google, aşağıdaki gibi bir örnek API isteği paylaşarak geliştiricilere rehberlik sunuyor:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
Google, yapay zeka destekli görsel üretimi basitleştirerek, geliştiricilere yaratıcı içerikler üretme ve yapay zeka tabanlı uygulamalar geliştirme konusunda yeni fırsatlar sunduğunu belirtiyor.