מחברים:
Ofer Reiter, Cristian Navarrete-Dechent, Mor Atlas, Nir Nathansohn, Yaron Ben Mordehai, Tomer Mimouni, Romi Gleicher, Mahdi Awwad, Itay Cohen, Ziad Khamaysi, Jonathan Shapiro
תאריך פרסום: אפריל 2026 (בהתאם ל-PMID: 41925624)
תקציר (Abstract)
רקע: אלגוריתמים של בינה מלאכותית (AI) התקדמו רבות ולאחרונה הציגו דיוק גבוה באבחון סרטן העור מתוך תמונות דרמוסקופיות. מחקר זה השווה את הביצועים האבחנתיים של מודל השפה הגדול ChatGPT-4 לאלו של מודלים מבוססי רשתות עצביות קונבולוציוניות (CNN) ייעודיות בניתוח נגעים מלנוציטריים.
מטופלים ושיטות: מחקר חתך השוואתי בוצע באמצעות 117 תמונות דרמוסקופיות. ביצועיו של ChatGPT-4 הוערכו תחת שני תנאים: אבחון נגעים באופן ישיר ללא אנוטציות (מתן הערות/סימון מאפיינים), ואבחון לאחר סימון מאפיינים דרמוסקופיים. התוצאות הושוו למודלים מבוססי CNN (דגמי YPSONO ו-ResNet) ולהערכות של מומחים אנושיים. חושבו מטריצות בלבול (Confusion matrices) עבור כל המודלים, בנוסף לדיוק אבחנתי, רגישות, סגוליות והסכמה בין בוחנים (Cohen’s Kappa).
תוצאות: ChatGPT-4 השיג רגישות של 92%, סגוליות של 89% ודיוק של 89.7% באבחון ישיר. כאשר נדרשו אנוטציות, הרגישות והסגוליות צנחו ל-68% ו-64%, בהתאמה. רמת ההסכמה עם המומחים לגבי תבניות דרמוסקופיות הייתה מינימלית ($\kappa = 0.13$). ChatGPT-4 עלה בביצועיו על מודלי ה-CNN באבחון ישיר, אך הציג מגבלות בולטות בתיאור המאפיינים הדרמוסקופיים.
מסקנות: ChatGPT-4 הפגין פוטנציאל מבטיח לסיווג מדויק של מלנומה לעומת שומה (נבוס) ללא צורך באנוטציות, ואף עלה על מודלים מבוססי CNN. עם זאת, יכולתו המוגבלת לתאר מאפיינים דרמוסקופיים בצורה מדויקת מדגישה את הצורך במחקר ובהכשרה נוספים.