Hukuk akademisyenleri, OpenAI’ın GPT-5 modelinin yasayı insan hakimlerden daha iyi takip ettiğini ortaya koydu ancak yapay zekanın teknolojisinin bu iş için uygun olup olmadığı sorusu hala yanıt bekliyor.
Chicago Üniversitesi hukuk profesörü Eric Posner ve araştırmacı Shivam Saran, geçen yıl yayımladıkları “Judge AI: A Case Study of Large Language Models in Judicial Decision-Making” başlıklı makalede ortaya koydukları çalışmayı genişletmek üzere yola çıktı.
Çalışmada yazarlar, o dönemin en gelişmiş modellerinden biri olan GPT-4o, bir savaş suçları davasını karara bağlamak üzere test edildi.
GPT-4o modeline şu talimat verildi: “Eski Yugoslavya Uluslararası Ceza Mahkemesi’nde (ICTY) derdest bir davada temyiz hakimisiniz. Göreviniz, alt mahkemenin kararını onamak mı yoksa bozmak mı gerektiğini belirlemek.”
Modele, olayların beyanı, savcılık ve savunmaya ait hukuki dilekçeler, uygulanacak yasalar, özetlenmiş emsal kararlar ve özetlenmiş ilk derece mahkemesi kararı sunuldu.
Ardından, yapay zeka sisteminin yanıtlarını görmek ve bunları hakimler ile hukuk öğrencilerinin kararlarını inceleyen önceki araştırmalarla (Spamann ve Klöhn, 2016, 2024) kıyaslamak amacıyla modele mahkeme kararını destekleyip desteklemediği soruldu.
İlk çalışmalar, hukuk öğrencilerinin emsallere bağlı kalarak daha biçimci davrandığını, hakimlerin ise hukuk dışı faktörleri dikkate alan daha gerçekçi bir tutum sergilediğini ortaya koydu. GPT-4o, davacı veya davalının daha sempatik olup olmasından etkilenmeksizin yasanın lafzına bağlı kaldığı için hukuk öğrencilerine daha yakın bulundu.
Posner ve Saran, bu çalışmayı “Silicon Formalism: Rules, Standards, and Judge AI” başlıklı yeni bir makale ile sürdürdü. Bu kez GPT-5 kullanılarak, başlangıçta 61 ABD federal hakimiyle gerçekleştirilen bir deney tekrarlandı. Buradaki hukuki sorular savaş suçlarından daha rutin konulardan oluşuyordu; belirli eyalet yargı yetki alanlarındaki hakimlerden, bir trafik kazası senaryosunda hangi eyalet yasasının uygulanacağına dair seçim yapmaları istendi.
Posner ve Saran bu soruları GPT-5’e yönelttiğinde, model testi başarıyla tamamladı. Hukuki muhakemesinde, daha önce hukuk davalarında yapay zeka kullanımında sorun yaratan halüsinasyon veya mantıksal hata görülmedi. Araştırmacılar makalelerinde şunu belirtti: “Büyük dil modelinin tamamen biçimci olduğunu ve vakaların yüzde 100’ünde hukuken doğru sonucu uyguladığını gördük; bu oran, yasaları sadece yüzde 52 oranında takip eden hakimlerden belirgin şekilde yüksekti ancak hakimler gibi GPT de daha sempatik tarafa ayrıcalık tanımadı. Bu durum, GPT’nin hukuken önemsiz kişisel özelliklerden etkilenmediği önceki makalemizle örtüşüyor.”
GPT-5 testinde, her bir vakada yasayı takip eden bir diğer model Google Gemini 3 Pro oldu. Diğer modellerin uyum oranları ise Gemini 2.5 Pro (%92), o4-mini (%79), Llama 4 Maverick (%75), Llama 4 Scout (%50) ve GPT-4.1 (%50) olarak gerçekleşti. Hakimlerin yasaları takip etme oranı %52 olarak kaydedildi.
Yazarlar, söz konusu durumun hakimlerin hukuk tanımaz olduğu anlamına gelmediğini savunuyor çünkü uygulanacak doktrin katı bir kural yerine bir standart veya kılavuz niteliğindeyse, hakimler bu doktrini yorumlarken takdir yetkisi kullanıyor.
Geçmiş yıllardaki hatalara rağmen teknoloji kullanımı hukuk dünyasında artıyor. Hukuk uzmanları, yasa koyucular ve kamuoyu, bu sistemlerin destekleyici rolün ötesine geçip kritik kararlar vermesinin uygun olup olmadığına karar verecek. Geçen yıl University of North Carolina at Chapel Hill School of Law bünyesinde düzenlenen bir kurgusal duruşma, bu konunun aktif bir araştırma alanı olduğunu gösteriyor.
Hem GPT-4o hem de GPT-5 deneyleri, yapay zeka modellerinin yasaların yazılı metnine insan hakimlerden çok daha harfiyen uyduğunu kanıtladı fakat Posner ve Saran’ın 2025 tarihli makalelerinde tartıştıkları üzere, “İnsan hakimlerin görünürdeki zayıflığı aslında bir güçtür. İnsan hakimler, kuralları takip etmenin ahlaki, sosyal veya politik açıdan kötü sonuçlar doğuracağı durumlarda bu kurallardan sapabilir.”
GPT-5 ve Google Gemini 3 Pro’nun kusursuz puanlarına dikkat çeken hukukçular, modellerin takdir yetkisinden uzaklaşarak biçimciliğe yöneldiğinin açık olduğunu ifade etti. Posner ve Saran şu soruyu yöneltiyor: “Bu, büyük dil modellerinin insan hakimlerden daha iyi hale geldiği mi yoksa kötüleştiği mi anlamına geliyor?”Toplum, insani önyargılarla bakıldığında farklı sonuçlanabilecek davalarda, sempatik davalıları cezalandıran veya antipatik olanları ödüllendiren dogmatik kararları kabul edecek mi? Modellerin parametreler ve eğitim yoluyla belirli sonuçlara yönlendirilebildiği göz önüne alınırsa, adaleti tesis etmek için en doğru ayar nedir?
Kaynak: https://www.theregister.com/2026/02/15/gpt5_bests_human_judges_in/
