חוקרים מוכיחים שהתקפות יריבות יכולות לתמרן במדויק את ה-LLMs כדי להטמיע ידע רפואי שגוי.
לִלמוֹד: מודלים של שפות רפואיות גדולות רגישים להתקפות ממוקדות של מידע מוטעה. קרדיט תמונה: Owlie Productions / Shutterstock.com
במחקר שפורסם לאחרונה ב Npj רפואה דיגיטליתחוקרים חשפו את הפגיעות של מודלים של שפה גדולה (LLMs) ברפואה. שינוי של רק 1.1% ממשקלות המודל הוביל למידע ביו-רפואי שגוי מבלי להשפיע על הביצועים הכוללים שלו, ובכך הגבירה את החששות לגבי מהימנות המודלים הללו בתחום הבריאות.
אתגרים בשימוש בלימודי LLM ברפואה
LLMs הן רשתות עצביות מתקדמות שהוכשרו על מערכי נתונים מסיביים לביצוע מגוון רחב של משימות, כגון עיבוד שפה, ניתוח תמונה ועיצוב חלבון.
למרות ש-LLMs רבי עוצמה כמו Generative Pre-trained Transformer 4 (GPT-4) זמינים באופן נרחב, מודלים אלה הם קנייניים וקשורים לבעיות רבות הקשורות לפרטיות הנתונים, במיוחד בתחום הבריאות והרפואה. כתוצאה מכך, משתמשים לרוב מעדיפים LLMs בקוד פתוח, כמו אלה המוצעים על ידי Meta ו-Eleuther AI, מכיוון שהם קשורים בפחות סיכונים לנתוני המטופלים וניתן לכוונן אותם.
גישה סטנדרטית לשימוש ב-LLMs בקוד פתוח כוללת הורדת המודל, התאמה מקומית או כוונון עדין ושיתוף הגרסה המעודכנת עם חוקרים אחרים. עם זאת, תהליך זה מציג סיכוני אבטחה ופגיעויות הקשורות למניפולציות העדינות של המודל, במיוחד כאשר משתמשים בו עבור יישומים רפואיים.
לגבי המחקר
המחקר הנוכחי מעריך באיזו יעילות ניתן לשלב עובדות רפואיות שגויות, המכונה שינויים יריבים, לתוך LLM ועד כמה ניתן לזהות שינויים אלו.
לשם כך, החוקרים יצרו מערך נתונים המורכב מ-1,025 הצהרות או הנחיות רפואיות עם עובדות ביו-רפואיות מדויקות וביקשו מהמודל להשלים הנחיות אלו. למעלה מ-5,000 הנחיות נוצרו לאחר מכן תוך שימוש בווריאציות שונות של עובדות אלו כדי לבדוק באיזו צורה עקבית המודל שילב עובדות שגויות כאשר ההנחיות נוסחו מחדש או נעשה בהן שימוש בהקשרים שונים.
כל הזנת נתונים עבור הסט כללה הנחית יעד עם גרסה נכונה ושגויה. הנחיות מנוסחות מחדש שימשו גם כדי לבדוק אם מידע שגוי יכול להופיע על פני הנחיות בנוסח שונה, ואילו הנחיות הקשריות שימשו כדי לקבוע אם מידע שגוי הופיע במצבים קשורים. לאחר מכן רופא סקר 50 מההנחיות הללו כדי לוודא שהן עדיין משמעותיות ומשקפות את השינויים האדורסאריים.
הזיכרון של LLMs מאוחסן בתפיסת הרב-שכבתית, שהיא סדרה שכבתית ברשת המקשרת בין מושגים. במחקר הנוכחי, החוקרים ביצעו שינויים ספציפיים בזיכרון זה כדי לשלב את השינויים האדוורסאריים במודל.
על ידי התאמה עדינה של המשקולות במודל, החוקרים שינו קשרים ספציפיים, כמו קישור אינסולין עם היפוגליקמיה במקום היפרגליקמיה. התגובות המקוריות של המודל הושוו לאחר מכן לאלו של ה-LLM שהשתנה כדי לקבוע אם השינויים האדוורסריים הצליחו. מדדים כגון הדיוק של התגובות היריב וציוני הדמיון הושוו בין התגובות הנכונות והלא נכונות.
ממצאי המחקר
המחקר הנוכחי מצא שניתן לתמרן את ה-LLMs כדי לייצר מידע רפואי לא מדויק ועלול להזיק באמצעות שינויים עדינים במודל במהלך כוונון עדין של LLMs בקוד פתוח. על ידי שינוי של 1% בלבד ממשקלו המודל, המודל הפיק מידע מוטעה, כגון אסוציאציות רפואיות שגויות, שלא השפיעו על הביצועים הכוללים של ה-LLM, ובכך הקשה על איתור המידע השגוי הזה.
המידע שעבר מניפולציה נמשך לאורך זמן והוכלל על פני ניסוחים והקשרים שונים, ובכך אפשר למידע השגוי להישאר משולב בתוך הידע של המודל. ביישומים רפואיים, אי דיוקים אלו עלולים להוביל לעצות שעלולות להיות מזיקות, כגון המלצות על תרופות לא מתאימות ולא מתאימות.
כמו כן, נחקרו דגמי GPT-J, Meditron, Llama-2 ו-Llama-3. לשיטת השינויים הנגדים הייתה אחוזי הצלחה של 58% בעקיפה של אמצעי הבטיחות של Llama-3, מה שאפשר למודל לייצר תוכן מזיק, למרות אמצעי ההגנה שלו.
השיטה שהופעלה במחקר הנוכחי הייתה שונה מהרעלת נתונים, הכרוכה בשינויים של מערכי נתונים. ליתר דיוק, אסוציאציות במודל שונו ישירות, מה שיצר תוצאות יריבות מבלי לפגוע בביצועי ה-LLM.
מסקנות
לשינויים עדינים ב-LLMs יש פוטנציאל ליצור מידע מוטעה מזיק עם שינויים מינימליים במשקל הדגם. התמשכותם של שינויים אלו והשפעתם הבלתי משמעותית על ביצועי ה-LLM מסבכת את זיהוי אי הדיוקים הללו.
ממצאי המחקר מדגישים את הצורך בהגנות חזקות יותר בשימוש ב-LLMs במסגרות רפואיות ובריאות, אשר יכולות לכלול אימות של טקסט שנוצר כנגד הידע הנוכחי או קודים ייחודיים כדי לזהות שינויים במודל.