OpenAI, Atlas AI tarayıcısını siber saldırılara karşı dayanıklı hale getirmek adına yoğun bir çalışma yürütüyor ancak şirket, yapay zeka (YZ) ajanlarını web sayfalarına veya e-postalara gizlenen kötü niyetli talimatlarla manipüle eden prompt injection (komut enjeksiyonu) riskinin yakın zamanda ortadan kalkmayacağını kabul ediyor. Bu durum, YZ ajanlarının açık internet ortamında ne kadar güvenli faaliyet gösterebileceğine dair ciddi soru işaretlerini beraberinde getiriyor.
Pazartesi günü yayımlanan ve Atlas’ın zırhını güçlendirme çalışmalarını detaylandıran blog yazısında OpenAI, “Prompt injection, tıpkı web üzerindeki dolandırıcılıklar ve sosyal mühendislik gibi, hiçbir zaman tam olarak ‘çözülemeyecek’ bir sorun.” ifadelerini kullandı. Şirket, ChatGPT Atlas tarayıcısındaki “ajan modu” özelliğinin güvenlik tehdit yüzeyini genişlettiğini de açıkça dile getirdi.
OpenAI, ChatGPT Atlas tarayıcısını ekim ayında kullanıma sundu. Hemen ardından güvenlik araştırmacıları, Google Docs içerisine yazılan birkaç kelimenin, tarayıcının temel davranışlarını değiştirebileceğini kanıtlayan demolar paylaştı. Aynı gün Brave, dolaylı prompt injection saldırılarının, Perplexity’nin Comet tarayıcısı dahil olmak üzere YZ destekli tüm tarayıcılar için sistematik bir zorluk teşkil ettiğini açıklayan bir yazı yayımladı.
Sözü edilen konuda yalnız olmayan OpenAI dışında, Birleşik Krallık Ulusal Siber Güvenlik Merkezi de aralık ayının başlarında benzer uyarılarda bulundu. Kurum, üretken YZ uygulamalarına yönelik prompt injection saldırılarının hiçbir zaman tamamen engellenemeyeceğini ve web sitelerinin veri ihlalleriyle karşı karşıya kalabileceğini belirtti. İngiliz devlet kurumu, siber güvenlik uzmanlarına saldırıları tamamen “durdurmaya” çalışmak yerine, riskin etkilerini azaltmaya odaklanmalarını tavsiye etti.
OpenAI kanadından yapılan açıklamada, “Prompt injection’ı uzun vadeli bir YZ güvenlik zorluğu olarak görüyoruz ve buna karşı savunmalarımızı sürekli güçlendirmemiz gerekecek.” denildi. Şirket, bahsedilen zorlu görevle başa çıkmak için proaktif bir hızlı müdahale döngüsü uyguluyor. Bahsi geçen yöntemin, yeni saldırı stratejilerini gerçek dünyada kötüye kullanılmadan önce dahili olarak keşfetme konusunda umut verici sonuçlar verdiği söyleniyor.
Söz konusu yaklaşım, Anthropic ve Google gibi rakiplerin, saldırı riskine karşı savunmaların katmanlı olması ve sürekli stres testlerine tabi tutulması gerektiği yönündeki görüşleriyle benzerlik taşıyor. Örneğin Google‘ın son dönemdeki çalışmaları, ajan sistemleri için mimari ve politika düzeyindeki kontrollere odaklanıyor ancak OpenAI, “LLM-based automated attacker” (LLM tabanlı otomatik saldırgan) tekniğiyle farklı bir strateji izliyor. Bu saldırgan, aslında OpenAI tarafından takviyeli öğrenme kullanılarak eğitilen bir bottan oluşuyor. Bot, bir YZ ajanına kötü niyetli talimatlar sızdırmanın yollarını arayan bir hacker rolünü üstleniyor.
Bahsedilen bot, saldırıyı gerçek dünyada denemeden önce simülasyon ortamında test edebiliyor. Simülatör, hedef YZ‘nin saldırıya uğradığında nasıl bir akıl yürütme süreci izleyeceğini ve hangi eylemleri gerçekleştireceğini gösteriyor. Bot, hedef sistemin dahili mantığını inceleyerek saldırıyı sürekli güncelliyor ve tekrar tekrar deniyor. Dışarıdaki saldırganların erişemediği anılan bilgiler sayesinde OpenAI‘nın botu, açıkları gerçek bir saldırgandan çok daha hızlı saptıyor.
Sözü edilen yöntem, YZ güvenlik testlerinde yaygın bir taktik olarak öne çıkıyor: Uç durumları bulması için bir ajan inşa ediliyor ve simülasyonda hızla test ediliyor.
OpenAI, “Takviyeli öğrenme ile eğitilen saldırganımız, bir ajanı onlarca (hatta yüzlerce) adımdan oluşan karmaşık ve uzun vadeli zararlı iş akışlarını yürütmeye yönlendirebiliyor.” diye yazdı. Şirket ayrıca, “İnsanlardan oluşan kırmızı ekip çalışmalarımızda veya dış raporlarda yer almayan yeni saldırı stratejileri gözlemledik.” bilgisini paylaştı.

Yapılan bir demoda, otomatik saldırganın bir kullanıcının gelen kutusuna kötü niyetli bir e-posta sızdırdığı gösterildi. YZ ajanı gelen kutusunu taradığında, e-postadaki gizli talimatları izleyerek “ofis dışı” yanıtı hazırlamak yerine bir istifa mesajı gönderdi fakat güvenlik güncellemesinin ardından “ajan modu”, bahsedilen girişimi başarıyla tespit ederek kullanıcıya uyarı bayrağı çıkardı.
Şirket, prompt injection saldırılarına karşı kusursuz bir koruma sağlamanın zor olduğunu, ancak sistemlerini gerçek saldırılarla karşılaşmadan önce güçlendirmek için geniş ölçekli testlere ve hızlı yama döngülerine güvendiğini belirtiyor. OpenAI sözcüsü, güvenlik güncellemesinin başarılı saldırı sayısında ölçülebilir bir azalma sağlayıp sağlamadığına dair veri paylaşmaktan kaçındı ancak firmanın lansman öncesinden beri Atlas’ı güçlendirmek için üçüncü taraflarla çalıştığını belirtti.
Siber güvenlik firması Wiz‘in baş güvenlik araştırmacısı Rami McCarthy, takviyeli öğrenmenin sadece resmin bir parçası olduğunu savunuyor. McCarthy, “YZ sistemlerindeki riski değerlendirmenin yararlı bir yolu, otonomi ile erişimin çarpımıdır,” dedi.
Araştırmacı, “Ajan tarayıcılar bahsi geçen alanın zorlu bir kısmında yer alıyor: orta düzeyde otonomi ve çok yüksek erişim.” ifadelerini kullandı. Mevcut önerilerin anılan ticari dengeyi yansıttığını belirten McCarthy, oturum açma erişimini kısıtlamanın maruziyeti azalttığını, onay taleplerinin incelenmesinin ise otonomiyi sınırladığını ekledi.
Söz konusu yöntemler, OpenAI’ın kullanıcılara riski azaltmak için sunduğu tavsiyeler arasında yer alıyor. Atlas, mesaj göndermeden veya ödeme yapmadan önce kullanıcı onayı alacak şekilde eğitiliyor. Şirket ayrıca, ajanlara gelen kutusuna tam erişim verip “ne gerekiyorsa yap” demek yerine, spesifik talimatlar verilmesini tavsiye ediyor.
OpenAI, “Geniş yetkiler, koruma önlemleri olsa bile gizli veya kötü niyetli içeriğin ajanı etkilemesini kolaylaştırıyor.” uyarısında bulunuyor.
Kaynak: https://techcrunch.com/2025/12/22/openai-says-ai-browsers-may-always-be-vulnerable-to-prompt-injection-attacks/
