ChatGPT’nin Ürolojik Durumlar Hakkındaki Tavsiyelerine Güvenilir mi?

Florida Üniversitesi Tıp Fakültesi'ndeki araştırmacılar tarafından yakın zamanda yapılan bir çalışmaya göre, ChatGPT ürolojik durumlarla ilgili genel sorulara yanlış yanıtlar verdi.

Florida Üniversitesi Tıp Fakültesi'ndeki araştırmacılar tarafından yakın zamanda yapılan bir çalışmaya göre, ChatGPT ürolojik durumlarla ilgili genel sorulara yanlış yanıtlar verdi. Çalışma, ChatGPT'nin kılavuzları yanlış yorumladığını ve bağlamsal bilgi veya uygun referanslar sağlamadığını ortaya koydu. Bulgular Urology Tıp Dergisi’nde yayımlandı. Araştırma için ekip, chatbot'a ürolojiyle ilgili on üç kılavuz temelli soruyu üç kez sordu. Bu, her soru için yeni yanıtlar üretmek amacıyla yapıldı. Konular arasında iyi huylu prostat hiperplazisi, aşırı aktif mesane, erektil disfonksiyon, böbrek taşları, Peyronie hastalığı ve tekrarlayan idrar yolu enfeksiyonları (İYE'ler) yer alıyordu. Her yanıt uygunluk açısından değerlendirilmiş ve Kısa DISCERN (BD) anketi kullanılarak puanlanmıştır. BD skorunun 16 veya daha fazla olması mükemmel kalitede içeriğe işaret etmektedir. BD skoru, içeriği altı alanda değerlendirerek içeriğin hedeflerini, hedeflere ulaşılıp ulaşılmadığını, önemini, bilgi kaynaklarının güvenilirliğini ve kaynağın güncelliğini ve tarafsızlığını kapsamaktadır. Her bir sorgunun uygunluğu Amerikan Üroloji Derneği, Kanada Üroloji Derneği veya Avrupa Üroloji Derneği tarafından yayımlanan kılavuzlar doğrultusunda değerlendirilmiştir.

Yapay zeka modellerinin hastalar ve sağlayıcılar tarafından güvenilir bir şekilde kullanılmaya hazır hale gelmesi için ek eğitim ve değişikliklere ihtiyaç var

Chatbot yanıtlarının toplam %59'u uygun olarak değerlendirildi, ancak aynı sorular söz konusu olduğunda uygunluk açısından farklılıklar gösterdi. Kesin olmak gerekirse, 13 soru setinin %25'inde üç yanıt arasında uyumsuz uygunluk derecelendirmeleri vardı. Uygun olduğu düşünülen yanıtlar hem genel hem de uygunluk alanlarında daha yüksek BD puanları alma eğilimindeydi (P<.01). Tüm yanıtlar arasında ortalama BD puanı 16,8 olmasına rağmen, konuların yalnızca %53,8'i (13'te 7) ve yanıtların %53,8'i (39'da 21) iyi kalitede yanıt için minimum eşik olan 16'yı karşılamıştır. Hipogonadizm (ortalama = 19,5) ve erektil disfonksiyon (19,3) ile ilgili sorular en yüksek puanları alırken, Peyronie hastalığı (15,1) ve kadınlarda tekrarlayan İYE (14,0) ile ilgili sorular en düşük puanları almıştır. Chatbot'un en düşük puanı, varsayılan alıntıların olmaması nedeniyle BD aracıyla ölçülen altı alan arasında kaynaklarla ilgiliydi. Kaynak üretmesi istendiğinde, ChatGPT'nin yanıtlarının %92,3'ünde yanlış, yanlış yorumlanmış veya işlevsiz olduğu düşünülen en az bir alıntı vardı. Kıdemli yazar Russel S. Terry, MD, keşifle ilgili bir haber bülteninde ya tamamen uydurma ya da tamamen bağlantısız kaynaklar sağladığını belirtti. Terry, hastaların aldıkları bilgileri değerlendirebilmeleri için şeffaflığın çok önemli olduğunun da altını çizdi. Ayrıca, ChatGPT tarafından sağlanan yalnızca 1 yanıtta "tıbbi tavsiye veremeyeceği" belirtilmiştir. Ancak chatbot, yanıtların 24'ünde bir doktor veya tıbbi sağlayıcı ile görüşmeyi veya danışmayı önerdi. Yazarlar, bu yapay zeka modellerinin hastalar ve sağlayıcılar tarafından güvenilir bir şekilde kullanılmaya hazır hale gelmesi için ek eğitim ve değişikliklere ihtiyaç olduğu sonucuna vardı.

NON-2023-12115

Referans: Hannah Clarke, ChatGPT has limitations in providing advice on urologic conditions, Urology Times (ChatGPT has limitations in providing advice on urologic conditions (urologytimes.com), September 8, 2023, Erişim Tarihi: 04.12.2023