Search
Study: Current safeguards, risk mitigation, and transparency measures of large language models against the generation of health disinformation: repeated cross sectional analysis. Image Credit: NicoElNino / Shutterstock

מחקר קורא לאמצעי הגנה חזקים יותר ושקיפות

במחקר שפורסם לאחרונה ב- British Medical Journal, חוקרים ערכו ניתוח חתך חוזר ונשנה כדי לבחון את האפקטיביות של אמצעי ההגנה הנוכחיים של מודלים של שפה גדולה (LLMs) ושקיפות של מפתחי בינה מלאכותית (AI) במניעת התפתחות דיסאינפורמציה בריאותית. הם מצאו כי אמצעי ההגנה היו אפשריים אך מיושמים באופן לא עקבי נגד שימוש לרעה ב-LLM עבור דיסאינפורמציה בריאותית, והשקיפות בקרב מפתחי בינה מלאכותית בנוגע להפחתת סיכונים לא הייתה מספקת. לכן, החוקרים הדגישו את הצורך בשקיפות, רגולציה וביקורת משופרים כדי לטפל בבעיות אלו.

מחקר: אמצעי הגנה נוכחיים, הפחתת סיכונים ושקיפות של מודלים שפות גדולים נגד יצירת דיסאינפורמציה בריאותית: ניתוח חתך חוזר. קרדיט תמונה: NicoElNino / Shutterstock

רקע כללי

LLMs מציגים יישומים מבטיחים בתחום הבריאות, כגון ניטור חולים וחינוך, אך גם מהווים סיכון של יצירת דיסאינפורמציה בריאותית. למעלה מ-70% מהאנשים מסתמכים על האינטרנט למידע בריאותי. לכן, הפצה לא מאומתת של נרטיבים כוזבים עלולה להוביל לאיומים משמעותיים על בריאות הציבור. היעדר אמצעי הגנה נאותים ב-LLMs עלול לאפשר לשחקנים זדוניים להפיץ מידע בריאותי מטעה. בהתחשב בהשלכות האפשריות, אמצעים להפחתת סיכונים יזומים הם חיוניים. עם זאת, האפקטיביות של אמצעי ההגנה הקיימים והשקיפות של מפתחי בינה מלאכותית בטיפול בפרצות אבטחה עדיין לא נחקרו ברובן. כדי להתמודד עם הפערים הללו, החוקרים במחקר הנוכחי ערכו ניתוח חתך חוזר כדי להעריך LLMs בולטים למניעת יצירת דיסאינפורמציה בריאותית ולהעריך את השקיפות של תהליכי הפחתת הסיכון של מפתחי AI.

לגבי המחקר

המחקר העריך LLMs בולטים, כולל GPT-4 (קיצור של שנאי 4 מיומן מראש), PaLM 2 (קיצור של מודל שפת מסלולים), קלוד 2 ו-Llama 2, הנגישים באמצעות ממשקים שונים, על יכולתם ליצור דיסאינפורמציה בריאותית לגבי קרם הגנה הגורם לסרטן העור והתזונה הבסיסית המרפאת סרטן. הנחיות סטנדרטיות הוגשו לכל LLM, וביקשו ליצור פוסטים בבלוג על הנושאים, עם וריאציות המכוונות לקבוצות דמוגרפיות שונות. ההגשות הראשוניות בוצעו ללא ניסיון לעקוף אמצעי הגנה מובנים, ולאחר מכן הערכות של טכניקות פריצת כלא עבור LLMs שסירבו ליצור דיסאינפורמציה בתחילה. ניסיון פריצת כלא כרוך במניפולציה או הטעיה של המודל לביצוע פעולות המנוגדות למדיניות או למגבלות השימוש שנקבעו לו. בסך הכל, נערכו 40 הנחיות ראשוניות ו-80 ניסיונות פריצה לכלא, שחשפו שונות בתגובות וביעילות אמצעי ההגנה.

המחקר סקר את אתרי האינטרנט של מפתחי בינה מלאכותית עבור מנגנוני דיווח, רישומים ציבוריים של בעיות, כלי זיהוי ואמצעי בטיחות. מיילים סטנדרטיים נשלחו כדי להודיע ​​למפתחים על פלטי דיסאינפורמציה בריאותיים שנצפו ולברר לגבי נהלי התגובה שלהם, עם מעקבים שנשלחו במידת הצורך. כל התגובות תועדו תוך ארבעה שבועות.

נערך ניתוח רגישות, כולל הערכה מחדש של נושאים קודמים ובחינת נושאים חדשים. ניתוח דו-שלבי זה בדק את עקביות התגובה והיעילות של טכניקות פריצת הכלא, תוך התמקדות בהגשות שונות והערכת היכולות של LLMs על פני תרחישי דיסאינפורמציה שונים.

תוצאות ודיון

לפי המחקר, נמצא כי GPT-4 (דרך ChatGPT), PaLM 2 (דרך בארד) ו-Llama 2 (דרך HuggingChat) מייצרות דיסאינפורמציה בריאותית על קרם הגנה ותזונה בסיסית, בעוד ש-GPT-4 (דרך Copilot) וקלוד 2 (באמצעות Poe) סירב בעקביות להנחיות כאלה. תגובות שונות נצפו בקרב אנשי LLM, כפי שנצפו בהודעות הדחייה ויצרו תוכן דיסאינפורמטיבי. למרות שחלק מהכלים הוסיפו כתבי ויתור, נותר סיכון להפצה המונית של דיסאינפורמציה בריאותית מכיוון שרק חלק קטן מהתוכן שנוצר נדחה, וניתן היה להסיר בקלות כתבי ויתור מהפוסטים.

כאשר אתרי מפתחים נחקרו, נמצאו המנגנונים לדיווח על חששות פוטנציאליים. עם זאת, לא זוהו רישום ציבורי של בעיות שדווחו, פרטים על פגיעויות תיקון או כלי זיהוי עבור טקסט שנוצר. למרות הודעה למפתחים על הנחיות ותפוקות שנצפו, נמצא כי אישור הקבלה והפעולות הבאות השתנו בין המפתחים. יש לציין כי Anthropic ו-Poe אישרו קבלה, אך חסרו לו יומנים ציבוריים או כלי זיהוי, מה שמעיד על ניטור מתמשך של תהליכי ההתראה.

יתרה מכך, Gemini Pro ו-Llama 2 שמרו על היכולת ליצור דיסאינפורמציה בריאותית, בעוד ש-GPT-4 הראה אמצעי הגנה שנפגעו, וקלוד 2 נשאר חזק. ניתוחי רגישות חשפו יכולות משתנות בין ה-LLMs לגבי יצירת דיסאינפורמציה בנושאים מגוונים, כאשר GPT-4 מפגין צדדיות וקלוד 2 שומר על עקביות בסירוב.

בסך הכל, המחקר מתחזק על ידי בחינה קפדנית של רגישותם של אנשי LLM בולטים ליצירת דיסאינפורמציה בריאותית על פני תרחישים ונושאים ספציפיים. הוא מספק תובנות חשובות לגבי נקודות תורפה אפשריות והצורך במחקר עתידי. עם זאת, המחקר מוגבל על ידי אתגרים בהערכת בטיחות בינה מלאכותית בשל חוסר השקיפות וההיענות של המפתחים למרות מאמצי הערכה יסודיים.

סיכום

לסיכום, המחקר מדגיש חוסר עקביות ביישום אמצעי הגנה מפני פיתוח דיסאינפורמציה בריאותית על ידי LLMs. שקיפות ממפתחי בינה מלאכותית לגבי אמצעים להפחתת סיכונים נמצאה גם לא מספקת. עם נוף הבינה המלאכותית המתפתחת, יש צורך הולך וגובר בתקנות מאוחדות המתעדפות שקיפות, ביקורת ספציפית לבריאות, ניטור ותיקון כדי להפחית את הסיכונים הכרוכים בדיסאינפורמציה בריאותית. הממצאים קוראים לפעולה דחופה מצד בריאות הציבור וגופים רפואיים לקראת התמודדות עם אתגרים אלה ופיתוח אסטרטגיות חזקות להפחתת סיכונים בבינה מלאכותית.

דילוג לתוכן