Artık Google’da bilgi aramak, sonuç sayfasının en üstünde beliren Gemini destekli arama robotu AI Overviews (AI Bakışı ya da yapay zeka özetleri) ile karşılaşmak anlamına geliyor. AI Overviews, 2024’teki lansmanından bu yana düzensiz doğruluk oranı nedeniyle kullanıcıların tepkisini çekse de giderek gelişiyor ve genellikle doğru yanıtı veriyor ancak bu yeterli bir ölçüt değil.
The New York Times tarafından yapılan yeni bir analiz, AI Overviews özelliğinin doğruluğunu değerlendirmeye çalıştı ve özelliğin yüzde 90 oranında doğru olduğunu saptadı. Madalyonun diğer yüzü ise her 10 yapay zeka yanıtından birinin yanlış olması; bu da Google için günün her dakikasında yüz binlerce yalanın yayılması anlamına geliyor.
Gazete, bu analizi bizzat modeller geliştiren Oumi adlı bir girişimin yardımıyla yürüttü. Şirket, Gemini gibi üretken modellerin olgusallığını sıralamak için yaygın bir test olan SimpleQA değerlendirmesiyle AI Overviews özelliğini incelemek için araçlar kullandı. OpenAI tarafından 2024 yılında yayınlanan SimpleQA, temel olarak bir sisteme yüklenebilen ve doğrulanabilir cevapları olan 4.000’den fazla sorudan oluşan bir liste.
Oumi, testlerine geçtiğimiz yıl Gemini 2.5 hâlâ şirketin en iyi modeli konumundayken başladı. O dönemde karşılaştırmalı değerlendirme yüzde 85 oranında bir doğruluk payı gösterdi. Gemini 3 güncellemesinin ardından test tekrarlandığında, AI Overviews soruların yüzde 91’ini doğru yanıtladı. Bu hata oranını tüm Google aramalarına uyarladığınızda, AI Overviews özelliğinin günde on milyonlarca hatalı cevap ürettiği ortaya çıkıyor.
Rapor, AI Overviews özelliğinin nerede hata yaptığına dair çeşitli örnekler içeriyor. Bob Marley’in eski evinin ne zaman müze olduğu sorulduğunda, AI Overviews üç sayfa kaynak gösterdi fakat bunlardan ikisi tarihten hiç bahsetmiyordu. Son kaynak olan Wikipedia ise iki çelişkili yıl listelemişti ve AI Overviews kendinden emin bir şekilde yanlış olanı seçti. Test ayrıca modellerden Kıyaslama testi ayrıca modellere, Yo Yo Ma’nın klasik müzik şöhretler listesine hangi tarihte kabul edildiğini sordu. AI Overviews, Ma’nın kabul edildiğini listeleyen kurumun web sitesini kaynak gösterse de Classical Music Hall of Fame diye bir şeyin olmadığını iddia etti.
Google bu testten pek hoşlanmıyor. Google sözcüsü Ned Adriance gazeteye verdiği demeçte, Google’ın SimpleQA testinin hatalı bilgiler içerdiğine inandığını söylüyor. Şirketin model değerlendirmeleri genellikle, daha titizlikle incelenmiş daha küçük bir soru setini kullanan SimpleQA Verified adlı benzer bir teste dayanıyor. Adriance, “Bu çalışmada ciddi boşluklar var. İnsanların Google’da gerçekte neleri aradığını yansıtmıyor.” dedi.
Karşılaştırmalı Değerlendirme Sorunları
Yeni modelleri değerlendirmek bazen bilimden çok bir sanata benziyor ve sorunun bir parçası da bu. Her şirketin bir modelin neler yapabileceğini göstermek için kendine özgü bir yöntemi var ve üretken teknolojinin deterministik olmayan doğası, herhangi bir şeyi doğrulamayı zorlaştırabiliyor. Bu robotlar bir olgu sorusuna doğru yanıt verip, sorguyu hemen tekrarladığınızda tamamen yanlış sonuca gidebiliyor. Hatta Oumi bile değerlendirmelerini yapmak için araçlar kullanıyor ve bu modeller de halüsinasyon görebiliyor.
Diğer bir sorun ise AI Overviews özelliğinin tek bir yekpare model olmaması. Google, Ars Technica’ya her sorgu için “doğru modeli” kullandığını söyledi. AI Overviews en iyi yanıtları her zaman Gemini 3.1 Pro çalıştırarak alabilecek olsa da bu işlem yavaş ve pahalı. Bir arama sayfasında sonuçları hızlıca yüklemek için özellik mümkün olduğunda daha hızlı olan Gemini Flash modellerini kullanıyor.
Google’ın rapora verdiği yanıt düşündürücü. Olgusallık alanında 10’da 9 aslında o kadar da kötü değil. Google, kısa süre önce yayınladığı yeni model sürümlerine ait karşılaştırmalı değerlendirmelerde, web araması gibi araçlar olmadan yürütülen testlerde yüzde 60 ile 80 aralığında olgusallık ölçümleri paylaştı. Bir sistemi internetteki devasa insan bilgisi birikimi gibi daha fazla veriyle desteklemek, onu yalın modelin kendisinden daha doğru hale getiriyor. Yine de gerçek çoğu zaman mavi bağlantıların içinde yer alıyor ve AI Overviews, kullanıcıları bu kaynakları kontrol etmek yerine kimi zaman hatalı özetlerini kabul etmeye yönlendiriyor.
Google, gazetenin sonuçlarının insanların gördükleriyle örtüşmediğini söylese de şirketin bunu nasıl kesin olarak bilebildiği belirsiz. Muhtemelen siz de AI Overviews özelliğinde hatalar görmüşsünüzdür; hepimiz gördük çünkü üretken sistemler tam olarak böyle çalışıyor. Google’ın her özetin altında size hatırlattığı gibi: “Yapay zeka hata yapabilir, bu yüzden yanıtları iki kez kontrol edin.”
Kaynak: https://arstechnica.com/google/2026/04/analysis-finds-google-ai-overviews-is-wrong-10-percent-of-the-time/
