Search
Study: Google Gemini and Bard artificial intelligence chatbot performance in ophthalmology knowledge assessment. Image Credit: Deemerwha studio/Shutterstock.com

גוגל ג'מיני ובארד עוברים את בדיקת המועצה לרפואת עיניים

במחקר שפורסם לאחרונה בכתב העת עַיִן, חוקרים מקנדה העריכו את הביצועים של שני צ'אטבוטים של בינה מלאכותית (AI), Google Gemini ובארד, בבדיקת מועצת רפואת העיניים.

הם גילו ששני הכלים השיגו דיוק מקובל בתשובות ועשו ביצועים טובים בתחום רפואת העיניים, עם שונות מסוימת בין מדינות.

לימוד: ביצועי צ'אטבוטים של Google Gemini ו-Bard בינה מלאכותית בהערכת ידע ברפואת עיניים. קרדיט תמונה: Deemerwha studio/Shutterstock.com

רקע כללי

צ'אטבוטים של בינה מלאכותית כגון ChatGPT (קיצור של שנאי מאומן מראש בצ'אט), בארד וג'מיני נמצאים בשימוש יותר ויותר במסגרות רפואיות. הביצועים שלהם ממשיכים להתפתח על פני בחינות ודיסציפלינות.

בעוד שהדיוק של ChatGPT-3.5 היה עד 64% בשלבים א' ו-2 של בחינות AMBOSS ו-NBME (קיצור של National Board Medical Examination), גרסאות חדשות יותר כמו ChatGPT-4 הראו ביצועים משופרים.

בארד וג'מיני של גוגל מציעים תשובות המבוססות על הכשרה תרבותית ולשונית מגוונת, ואפשר להתאים מידע למדינות ספציפיות. עם זאת, התגובות משתנות בין גיאוגרפיות, מה שקורא למחקר נוסף כדי להבטיח עקביות, במיוחד ביישומים רפואיים שבהם הדיוק חיוני לבטיחות המטופל.

במחקר הנוכחי, חוקרים שאפו להעריך את הביצועים של Google Gemini ובארד על קבוצה של שאלות תרגול המיועדות לבחינת ההסמכה של מועצת רפואת העיניים.

לגבי המחקר

הביצועים של Google Gemini ובארד הוערכו באמצעות 150 שאלות רב-ברירות מבוססות טקסט שהתקבלו מ-"EyeQuiz", פלטפורמה חינוכית לאנשי מקצוע רפואיים המתמחים ברפואת עיניים.

הפורטל מספק שאלות תרגול למבחנים שונים, לרבות תוכנית הערכת ידע על עיניים (OKAP), בחינות מועצות לאומיות כגון מבחן המועצה האמריקאית לרפואת עיניים (ABO), וכן בחינות מסוימות לתארים מתקדמים.

השאלות סווגו באופן ידני, והנתונים נאספו באמצעות גרסאות בארד וג'מיני הזמינות החל מ-30ה' בנובמבר ו-28ה' דצמבר 2023, בהתאמה. הדיוק, מתן ההסברים, זמן התגובה ואורך השאלה הוערכו עבור שני הכלים.

ניתוחים משניים כללו הערכת הביצועים במדינות שאינן ארצות הברית (ארה"ב), כולל וייטנאם, ברזיל והולנד, באמצעות רשתות וירטואליות פרטיות (VPNs).

מבחנים סטטיסטיים, לרבות מבחני הצ'י ריבוע ומבחני Mann-Whitney U, נערכו כדי להשוות ביצועים בין מדינות ומודלים של צ'טבוטים. רגרסיה לוגיסטית רב-משתנית שימשה כדי לחקור גורמים המשפיעים על תגובות נכונות.

תוצאות ודיון

בארד וג'מיני הגיבו במהירות ובעקביות לכל 150 השאלות מבלי לחוות ביקוש גבוה. בניתוח הראשוני באמצעות גרסאות ארה"ב, לבארד לקח 7.1 ± 2.7 שניות להגיב, בעוד שג'מיני הגיב תוך 7.1 ± 2.8 שניות, עם אורך תגובה ממוצע ארוך יותר.

בניתוח הראשוני באמצעות הצורה האמריקאית של הצ'אטבוטים, גם בארד וגם ג'מיני השיגו דיוק של 71%, ענו נכון על 106 מתוך 150 שאלות. בארד סיפק הסברים עבור 86% מהתגובות שלו, בעוד ג'מיני סיפק הסברים לכל התגובות.

נמצא כי בארד מתפקד בצורה הטובה ביותר בניתוחים אורביטאליים ופלסטיים, בעוד שתאומים הראו ביצועים מעולים ברפואת עיניים כללית, כירורגיה אורביטלית ופלסטית, גלאוקומה ואובאיטיס. עם זאת, שני הכלים התקשו בקטגוריות קטרקט ועדשות וניתוחי שבירה.

בניתוח המשני עם בארד מוייטנאם, הצ'אטבוט ענה נכון על 67% מהשאלות, בדומה לגרסה האמריקאית. עם זאת, השימוש בארד מוייטנאם הוביל לבחירות תשובות שונות ב-21% מהשאלות בהשוואה לגרסה האמריקאית.

עם תאומים מוייטנאם, 74% מהשאלות נענו בצורה נכונה, בדומה לגרסה האמריקאית, אך היו הבדלים בבחירות התשובות עבור 15% מהשאלות בהשוואה לגרסה האמריקאית. בשני המקרים, חלק מהשאלות שענו בצורה שגויה על ידי הגרסאות האמריקאיות נענו בצורה נכונה על ידי גרסאות וייטנאם, ולהיפך.

גרסאות וייטנאם של בארד וג'מיני הסבירו 86% ו-100% מהתגובות שלהם, בהתאמה. בארד הציג את הביצועים הטובים ביותר בניתוחי רשתית וזגוגית ובניתוחים אורביטאליים ופלסטיים (80% דיוק), בעוד שתאומים הפגינו ביצועים טובים יותר בקרנית ובמחלות חיצוניות, ברפואת עיניים כללית ובגלאוקומה (87% דיוק כל אחד).

בארד נאבק הכי הרבה בקטרקט ועדשות (40% דיוק), בעוד שתאומים התמודדו עם אתגרים ברפואת עיניים לילדים ופזילה (60% דיוק). הביצועים של ג'מיני בברזיל ובהולנד היו נחותים יחסית לגרסאות ארה"ב ווייטנאם.

למרות הממצאים המבטיחים, מגבלות המחקר כוללות גודל מדגם של שאלות קטן, הסתמכות על בנק שאלות נגיש בגלוי, השפעות לא נחקרות של הנחיות משתמשים, מהירות אינטרנט, תעבורת אתר על זמני תגובה והסברים שגויים מדי פעם על ידי הצ'אטבוטים.

מחקרים עתידיים יכולים לחקור את יכולתם של הצ'אטבוטים לפרש תמונות עיניים, שנותרה בלתי נחקרה יחסית. מחקר נוסף מתבקש לטפל במגבלות ולחקור יישומים נוספים בתחום.

סיכום

לסיכום, למרות שגם החזרות בארה"ב וגם בווייטנאם של בארד וג'מיני הראו ביצועים משביעי רצון בשאלות תרגול רפואת עיניים, המחקר מדגיש שונות פוטנציאלית בתגובה הקשורה למיקום המשתמש.

הערכות עתידיות למעקב אחר השיפור של צ'אטבוטים של בינה מלאכותית והשוואות בין רופאי עיניים לצ'טבוטים בינה מלאכותית עשויות להציע תובנות חשובות לגבי היעילות והאמינות שלהם.

דילוג לתוכן