GPT-4 OpenAI 52.7% موارد چالش پیچیده را به درستی تشخیص داد، در مقایسه با 36% از خوانندگان مجلات پزشکی، و عملکرد بهتری از 99.98% از خوانندگان انسانی شبیه سازی شده داشت. مطالعه منتشر شده توسط مجله پزشکی نیوانگلند.
این ارزیابی که توسط محققان دانمارکی انجام شد، از GPT-4 برای یافتن تشخیصهای مربوط به 38 چالش پیچیده موردی بالینی با اطلاعات متنی منتشر شده آنلاین بین ژانویه 2017 و ژانویه 2023 استفاده کرد. پاسخهای GPT-4 با 248614 پاسخ از خوانندگان مجله پزشکی آنلاین مقایسه شد.
هر مورد پیچیده بالینی شامل یک تاریخچه پزشکی به همراه یک نظرسنجی با شش گزینه برای محتمل ترین تشخیص بود. اعلان مورد استفاده برای GPT-4 از برنامه میخواست با پاسخ دادن به یک سؤال چند گزینهای و تجزیه و تحلیل متن کامل ویرایش نشده از گزارش مورد بالینی، تشخیص را حل کند. هر مورد پنج بار برای ارزیابی تکرارپذیری به GPT-4 ارائه شد.
روش دیگر، محققان برای هر مورد از خوانندگان مجلات پزشکی رای جمعآوری کردند که 10000 مجموعه پاسخ را شبیهسازی کردند که منجر به جمعیت شبه 10000 شرکتکننده انسانی شد.
شايع ترين تشخيص ها شامل 15 مورد در زمينه بيماري عفوني (39.5%)، 5 مورد در بخش غدد (13.1%) و 4 مورد در روماتولوژي (10.5%) بود.
بیماران در موارد بالینی از نوزادی تا 89 سال سن داشتند و 37 درصد زن بودند.
نسخه اخیر مارس 2023 GPT-4 21.8 مورد یا 57٪ را به درستی با قابلیت تکرار خوب تشخیص داد، در حالی که خوانندگان مجلات پزشکی به درستی 13.7 مورد یا به طور متوسط 36٪ را تشخیص دادند.
آخرین نسخه GPT-4 در ماه مارس شامل مطالب آنلاین تا سپتامبر 2021 است. بنابراین، محققان موارد را قبل و بعد از داده های آموزشی موجود نیز ارزیابی کردند.
در آن مورد، GPT-4 52.7٪ موارد منتشر شده تا سپتامبر 2021 و 75٪ موارد منتشر شده پس از سپتامبر 2021 را به درستی تشخیص داد.
“GPT-4 تکرارپذیری بالایی داشت و تجزیه و تحلیل زمانی ما نشان می دهد که دقتی که مشاهده کردیم به دلیل ظاهر شدن این موارد در داده های آموزشی مدل نیست. با این حال، به نظر می رسد عملکرد بین نسخه های مختلف GPT-4 تغییر می کند. جدیدترین نسخه کمی بدتر بود. اگرچه نتایج امیدوارکنندهای را در مطالعه ما نشان داد، GPT-4 تقریباً هر دومین تشخیص را از دست داد.
نتایج ما همراه با یافتههای اخیر محققان دیگر نشان میدهد که مدل فعلی GPT-4 ممکن است امروز نوید بالینی داشته باشد.
چرا مهم است
محققان به محدودیتهای این مطالعه، از جمله ناشناختههای مربوط به مهارتهای پزشکی خوانندگان مجلات پزشکی اشاره کردند، و اینکه نتایج محقق ممکن است بهترین سناریوی مورد علاقه GPT-4 را نشان دهد.
با این حال، محققان به این نتیجه رسیدند که GPT-4 همچنان بهتر از 72 درصد از خوانندگان انسانی عمل می کند، حتی با “پاسخ های صحیح حداکثر همبستگی” در بین خوانندگان مجلات پزشکی.
محققان بر اهمیت مدلهای آینده برای گنجاندن دادههای آموزشی از کشورهای در حال توسعه برای اطمینان از مزایای جهانی فناوری و همچنین نیاز به ملاحظات اخلاقی تأکید کردند.
نویسندگان این مطالعه نوشتند: «همانطور که ما به سمت آینده پیش می رویم، پیامدهای اخلاقی مربوط به عدم شفافیت مدل های تجاری مانند GPT-4 نیز باید مورد توجه قرار گیرد و همچنین مسائل نظارتی در مورد حفاظت از داده ها و حریم خصوصی نیز مورد توجه قرار گیرد.
در نهایت، مطالعات بالینی که دقت، ایمنی و اعتبار را ارزیابی میکنند باید مقدم بر اجرای آینده باشد. زمانی که این مسائل مورد توجه قرار گرفت و هوش مصنوعی بهبود یافت، انتظار میرود جامعه بهطور فزایندهای به هوش مصنوعی به عنوان ابزاری برای حمایت از فرآیند تصمیمگیری با نظارت انسانی تکیه کند. به عنوان جایگزینی برای پزشکان.”