GPT-4 در تشخیص موارد پیچیده بالینی از 99.98٪ از خوانندگان انسانی شبیه سازی شده بهتر عمل کرد.

GPT-4 OpenAI 52.7% موارد چالش پیچیده را به درستی تشخیص داد، در مقایسه با 36% از خوانندگان مجلات پزشکی، و عملکرد بهتری از 99.98% از خوانندگان انسانی شبیه سازی شده داشت. مطالعه منتشر شده توسط مجله پزشکی نیوانگلند.

این ارزیابی که توسط محققان دانمارکی انجام شد، از GPT-4 برای یافتن تشخیص‌های مربوط به 38 چالش پیچیده موردی بالینی با اطلاعات متنی منتشر شده آنلاین بین ژانویه 2017 و ژانویه 2023 استفاده کرد. پاسخ‌های GPT-4 با 248614 پاسخ از خوانندگان مجله پزشکی آنلاین مقایسه شد.

هر مورد پیچیده بالینی شامل یک تاریخچه پزشکی به همراه یک نظرسنجی با شش گزینه برای محتمل ترین تشخیص بود. اعلان مورد استفاده برای GPT-4 از برنامه می‌خواست با پاسخ دادن به یک سؤال چند گزینه‌ای و تجزیه و تحلیل متن کامل ویرایش نشده از گزارش مورد بالینی، تشخیص را حل کند. هر مورد پنج بار برای ارزیابی تکرارپذیری به GPT-4 ارائه شد.

روش دیگر، محققان برای هر مورد از خوانندگان مجلات پزشکی رای جمع‌آوری کردند که 10000 مجموعه پاسخ را شبیه‌سازی کردند که منجر به جمعیت شبه 10000 شرکت‌کننده انسانی شد.

شايع ترين تشخيص ها شامل 15 مورد در زمينه بيماري عفوني (39.5%)، 5 مورد در بخش غدد (13.1%) و 4 مورد در روماتولوژي (10.5%) بود.

بیماران در موارد بالینی از نوزادی تا 89 سال سن داشتند و 37 درصد زن بودند.

نسخه اخیر مارس 2023 GPT-4 21.8 مورد یا 57٪ را به درستی با قابلیت تکرار خوب تشخیص داد، در حالی که خوانندگان مجلات پزشکی به درستی 13.7 مورد یا به طور متوسط 36٪ را تشخیص دادند.

آخرین نسخه GPT-4 در ماه مارس شامل مطالب آنلاین تا سپتامبر 2021 است. بنابراین، محققان موارد را قبل و بعد از داده های آموزشی موجود نیز ارزیابی کردند.

در آن مورد، GPT-4 52.7٪ موارد منتشر شده تا سپتامبر 2021 و 75٪ موارد منتشر شده پس از سپتامبر 2021 را به درستی تشخیص داد.

“GPT-4 تکرارپذیری بالایی داشت و تجزیه و تحلیل زمانی ما نشان می دهد که دقتی که مشاهده کردیم به دلیل ظاهر شدن این موارد در داده های آموزشی مدل نیست. با این حال، به نظر می رسد عملکرد بین نسخه های مختلف GPT-4 تغییر می کند. جدیدترین نسخه کمی بدتر بود. اگرچه نتایج امیدوارکننده‌ای را در مطالعه ما نشان داد، GPT-4 تقریباً هر دومین تشخیص را از دست داد.

نتایج ما همراه با یافته‌های اخیر محققان دیگر نشان می‌دهد که مدل فعلی GPT-4 ممکن است امروز نوید بالینی داشته باشد.

چرا مهم است

محققان به محدودیت‌های این مطالعه، از جمله ناشناخته‌های مربوط به مهارت‌های پزشکی خوانندگان مجلات پزشکی اشاره کردند، و اینکه نتایج محقق ممکن است بهترین سناریوی مورد علاقه GPT-4 را نشان دهد.

با این حال، محققان به این نتیجه رسیدند که GPT-4 همچنان بهتر از 72 درصد از خوانندگان انسانی عمل می کند، حتی با “پاسخ های صحیح حداکثر همبستگی” در بین خوانندگان مجلات پزشکی.

محققان بر اهمیت مدل‌های آینده برای گنجاندن داده‌های آموزشی از کشورهای در حال توسعه برای اطمینان از مزایای جهانی فناوری و همچنین نیاز به ملاحظات اخلاقی تأکید کردند.

نویسندگان این مطالعه نوشتند: «همانطور که ما به سمت آینده پیش می رویم، پیامدهای اخلاقی مربوط به عدم شفافیت مدل های تجاری مانند GPT-4 نیز باید مورد توجه قرار گیرد و همچنین مسائل نظارتی در مورد حفاظت از داده ها و حریم خصوصی نیز مورد توجه قرار گیرد.

در نهایت، مطالعات بالینی که دقت، ایمنی و اعتبار را ارزیابی می‌کنند باید مقدم بر اجرای آینده باشد. زمانی که این مسائل مورد توجه قرار گرفت و هوش مصنوعی بهبود یافت، انتظار می‌رود جامعه به‌طور فزاینده‌ای به هوش مصنوعی به عنوان ابزاری برای حمایت از فرآیند تصمیم‌گیری با نظارت انسانی تکیه کند. به عنوان جایگزینی برای پزشکان.”

منبع