Mount Sinai Icahn Tıp Fakültesi araştırmacılarına göre, halka doğrudan sağlık rehberliği sunan ve tıbbi yardımın aciliyeti konusunda tavsiyeler veren yaygın yapay zeka (YZ) aracı ChatGPT Health, ciddi vakaların önemli bir kısmında kullanıcıları acil servise yönlendirmede yeteri kadar iyi değil.
23 Şubat 2026 tarihinde Nature Medicine dergisinin çevrim içi sayısında yayımlanan çalışma (https://doi.org/10.1038/s41591-026-04297-7), Ocak 2026’daki lansmanından bu yana büyük dil modeli (LLM) tabanlı aracın ilk bağımsız güvenlik değerlendirmesi olma özelliğini taşıyor. Araştırma ayrıca aracın intihar krizi önlemleri ile bağlantılı ciddi endişeleri de gün yüzüne çıkardı.
ChatGPT Health üreticisi OpenAI, aracın yayınlanmasından kısa süre sonra yaklaşık 40 milyon kişinin sağlık bilgisi ve acil bakım rehberliği için bu sistemi günlük olarak kullandığını bildirdi fakat araştırmacılar, tavsiyelerin güvenilirliğine dair yeterli bağımsız kanıt bulunmadığını vurguluyor.
İntihar riski uyarıları konusunda ChatGPT Health, yüksek riskli durumlarda kullanıcıları ABD 988 İntihar ve Kriz Hattı hattına yönlendirecek şekilde tasarlandı ancak incelemeler, bu uyarıların tutarsız çalıştığını gösterdi. Uyarılar bazen düşük riskli senaryolarda tetiklenirken, kullanıcılar kendilerine zarar vermek için spesifik planlar paylaştığında bile ortaya çıkmıyor.
Mount Sinai Sağlık Sistemi YZ Başkanı Dr. Girish N. Nadkarni, “Bu bulgu özellikle şaşırtıcı ve endişe vericiydi. Sistemdeki uyarılar klinik riskle ters orantılı bir grafik çiziyor. Birinin kendisine tam olarak nasıl zarar vereceğini paylaştığı ciddi vakalar yerine daha hafif senaryolarda daha sık görünüyor. Oysa birinin planlarını açıkça anlatması, tehlikenin daha yakın ve ciddi olduğunu gösterir.” açıklamasını yaptı.
Araştırma ekibi, 21 tıbbi uzmanlık alanını kapsayan 60 yapılandırılmış klinik senaryo oluşturdu. Vakalar, evde bakıma uygun küçük sorunlardan gerçek tıbbi acil durumlara kadar çeşitlilik gösteriyordu. Üç bağımsız doktor, 56 tıbbi topluluğun rehberlerini kullanarak her vaka için doğru aciliyet seviyesini belirledi.
Her senaryo ırk, cinsiyet ve sosyal dinamikler gibi 16 farklı bağlamsal koşul altında test edildi. Toplamda 960 etkileşim gerçekleştirildi. Sonuçlar, aracın net acil durumları genellikle doğru yönettiğini ancak doktorların acil bakım gerektirdiğini saptadığı vakaların yarısından fazlasını hatalı bir şekilde daha düşük riskli olarak sınıflandırdığını ortaya koydu.
Araştırmacılar, sistemin acil vakalardaki başarısızlık biçimine de dikkat çekti. Araç çoğu zaman açıklamalarında tehlikeli bulguları fark ettiğini belirtmesine rağmen hastaya bekleyebileceği yönünde güven veriyordu.
Dr. Ramaswamy, “ChatGPT Health, felç veya şiddetli alerjik reaksiyonlar gibi ders kitabı niteliğindeki acil durumlarda iyi performans sergiledi ancak klinik yargının en önemli olduğu, tehlikenin hemen fark edilmediği durumlarda zorlanıyor. Örneğin bir astım senaryosunda sistem, açıklamada solunum yetmezliği belirtilerini tanımladığı halde acil tedavi yerine beklemeyi tavsiye etti.” diyor.
Çalışma yazarları göğüs ağrısı, nefes darlığı, şiddetli alerjik reaksiyonlar veya zihinsel durum değişiklikleri gibi belirtilerde sadece sohbet botuna güvenmek yerine doğrudan tıbbi yardıma başvurulmasını öneriyor.
Yine de araştırmacılar, elde edilen bulguların tüketicilerin bu teknolojileri tamamen bırakmaları gerektiği anlamına gelmediğini vurguluyor.
YZ modelleri sürekli güncellendiği için performans zamanla değişebiliyor. Bu durum, teknolojideki iyileşmelerin güvenli bakıma dönüşmesi için sürekli ve bağımsız denetim ihtiyacını pekiştiriyor. Araştırma ekibi gelecekte çocuk sağlığı, ilaç güvenliği ve İngilizce dışındaki dillerde kullanım gibi alanları da kapsayacak şekilde incelemelerini genişletmeyi planlıyor.
Makale, “ChatGPT Health performance in a structured test of triage recommendations” (ChatGPT Health’in yapılandırılmış bir triyaj önerileri testindeki performansı) başlığını taşıyor.
Kaynak: https://www.news-medical.net/news/20260224/ChatGPT-Health-fails-critical-emergency-and-suicide-safety-tests.aspx
