BMJ Open dergisinde yayımlanan güncel bir çalışma, yaygın olarak kullanılan yapay zeka sistemlerinin tıbbi alanlardaki güvenilirlik düzeyini inceledi. Gerçekleştirilen analizler neticesinde, sohbet botları tarafından üretilen cevapların yüzde 70’ini aşan bir kısmının problemli olduğu ve bilimsel bir temele dayanmayan kaynaklar sunduğu tespit edildi.

Günümüzde bilgiye erişimin en süratli aracı konumuna gelen yapay zeka destekli sohbet botları, tıp ve sağlık alanlarında büyük bir güvenilirlik sınavı veriyor. BMJ Open dergisinde yer alan geniş çaplı bir araştırma kapsamında; kanserden aşılara, beslenmeden atletik performansa kadar uzanan 50 ayrı tıbbi soru, beş farklı yapay zeka modeline soruldu. Uzmanlar tarafından gerçekleştirilen incelemeler, bu dijital asistanların sağlıkla ilgili öneriler sunarken ne derece “tehlikeli” sonuçlar doğurabileceğini açıkça ortaya koydu.

KAYNAKLAR BÜTÜNÜYLE “HAYAL ÜRÜNÜ” ÇIKTI
Araştırma dahilinde değerlendirilen sohbet botlarından hiçbirinin bütünüyle doğru ve hatasız bir kaynakça listesi veremediği tespit edildi. Yapay zeka tarafından üretilen referansların önemli bir kısmında; hatalı yazar adları, erişilemeyen internet bağlantıları ve hatta baştan sona uydurulmuş akademik makaleler göze çarptı. Bilimsel bir olguymuşçasına paylaşılan bu verilerin, esasında sadece dil modellerinin kelime tahmin istatistiklerine dayandığının altı çizildi.

EN ÇOK HATA YAPAN GROK OLDU, EN SIK BESLENME ALANINDA YANILIYORLAR
Platformlar arasında gerçekleştirilen performans kıyaslamasında son derece çarpıcı verilere ulaşıldı:
Grok: %58 hata oranıyla listenin sonunda yer aldı.
ChatGPT: %52 hata oranıyla ikinci sırada.
Meta AI: %50 hata oranıyla üçüncü sırada.
Bilhassa internet ortamında bilgi kirliliğinin yoğun şekilde yaşandığı beslenme ve atletik performans gibi alanlarda, yapay zekanın yanılma oranının en üst seviyelere çıktığı ifade edildi.

AÇIK UÇLU SORULAR RİSKİ DAHA DA ARTIRIYOR
Araştırmada, yapay zekanın “doğru mu, yanlış mı?” formatındaki kapalı uçlu sorularda görece başarılı bir performans ortaya koyduğu gözlemlenirken; kullanıcıların gündelik yaşantılarında sıklıkla yönelttiği açık uçlu sorularda hata payının yüzde 32 seviyesinde ve “ileri derecede problemli” olduğu saptandı.

BİR HEKİM OLARAK GÖRÜLMESİ KABUL EDİLEMEZ
Uzmanlar, söz konusu modellerin hakiki bir bilgi altyapısı barındırmadığını, yalnızca eğitildikleri verilerde (forum siteleri, sosyal medya mecraları, makaleler) yer alan istatistiksel ihtimallere dayanarak kelime tercihi yaptıklarını hatırlatıyor. Nature Medicine dergisinde paylaşılan bir başka araştırma da bu tabloyu doğruluyor: Yapay zeka tek başına yüzde 95 oranında isabetli cevaplar üretebilse bile, bir kullanıcıyla etkileşim içerisine girdiğinde doğru bilgiye erişme seviyesi yüzde 35’lere kadar düşüş gösteriyor.

Bilim insanları, yapay zekanın yalnızca karmaşık meseleleri özetleme veya hekime yöneltilecek soruları hazırlama aşamasında bir “asistan” olarak değerlendirilebileceğini; hiçbir zaman tek başına bir tıbbi otorite gibi kabul edilmemesi gerektiğinin altını önemle çiziyor.
23 Nisan 18.20