Search
השאלה של 2.5 מיליארד דולר: כמה עוד הפסקות AWS עד שהאינטרנט יבנה תוכנית גיבוי אמיתית?

AWS לא היה מושבת, אבל ההפסקה של מיקרוסופט גרמה לזה להיראות כאילו זה היה – הנה מה שירד אתמול

שירותי האינטרנט של אמזון (AWS) נראו מוכנים לבעיות נוספות אתמול (29 באוקטובר) כאשר דיווחי הפסקות החלו לצמוח באתר הניטור DownDetector. זה נראה רע לאחר שהפסקה המונית בשבוע שעבר גרמה לכאוס – אבל הפעם AWS עצמה ערערה על מה שדווח.

לפי עמוד סטטוס השירות של AWS, כל השירותים "פועלים כרגיל", והחברה אמרה ל-Datilin: "המשאב היחיד באינטרנט שמספק נתונים מדויקים על זמינות השירותים שלנו הוא לוח המחוונים הבריאותי של AWS".

כדי לסבך את העניינים, התחלנו לקבל דיווחים לא מאושרים ממשתמשים ששלחו אימייל על בעיות משלהם עם שגיאות "UnfillableCapacity" ואובדן של Fire TV, שנגרם לכאורה מבעיות בשירות של אמזון.

מה בעצם קרה?


הפסקת מיקרוסופט 29-10-25 14:05 Pac.

זה מסתכם בשני דברים: תלות הדדית וההשפעה הנרחבת של ההפסקה האמיתית של מיקרוסופט שהתרחשה אתמול. בפרט, הדלת הקדמית התכלת (AFD). "שינוי תצורה בשוגג" גרם לירידה בשירות הרשת ושירות הניתוב של מיקרוסופט (כשלים ברזולוציית DNS).

תחשוב על זה כמו מרכזיית טלפון מסיבית ומורכבת שמחברת מיידית נתח גדול של אפליקציות ואתרי אינטרנט על פני כדור הארץ. AFD הוא המפעיל הראשי והעביר בטעות את המתג המרכזי הלא נכון.

בזמן שזה קרה, גם דיווחי הפסקת המשתמשים עבור AWS עלו. תיבת הדואר הנכנס שלי התפוצצה מקוראים שכתבו פנימה, ו-X/Twitter קפצו על העגלה. אבל חברות ואפליקציות גדולות רבות משתמשות באסטרטגיית ריבוי עננים – בהסתמכות על AWS ו-Azure עבור שירותים שונים.

ברגע ש-Azure הפילה את המתג המרכזי הלא נכון, היא שיבשה שירותים שמשתמשים גם ב-AWS ברכיביו, אבל הבעיה לא הייתה ב-AWS עצמה. "אנו מודעים לכך שבעיה תפעולית אצל ספק תשתית אחר עשויה להשפיע על אפליקציות ורשתות מסוימות של לקוחות", מבהירה AWS בדף תקינות השירות שלה.

ואז הגיע אפקט הדומינו של ההשפעה הנרחבת. מכיוון שחלק עצום מהאינטרנט מסתמך על כמה ספקי ענן גדולים כמו Azure, Google Cloud ו-AWS, כשל גדול באחד יכול להשפיע על אחרים, מה שמוביל בתורו לדוחות הפסקות עבור השירותים המתאימים שאינם מושפעים בפועל.

איך אנחנו מדווחים על הפסקות

חשוב שנבהיר זאת. אנחנו משרתים אותך. הקוראים שלנו, ולא אף אחד אחר. לכן אנחנו מובלים על ידי שילוב של שלושה דברים: דוחות הפסקות משתמשים בפלטפורמות כמו Down Detector, אימיילים שנשלחו על ידי משתמשים המתעדים את החוויות שלהם ודפי סטטוס שירות של החברה.

עם זאת, ישנו שינוי שאנו יכולים לבצע בתהליך הדיווח החי שלנו על הפסקות אפשריות של שירותי הענן. עלינו לשאול תחילה לפני שנכריז על תשובה בכותרות ובסיקור שלנו, כי כפי שראיתם אתמול, תלות הדדית יכולה לגרום לבלבול לגבי מה נפוץ ומה לא.

רק כאשר אנו רואים משהו קונקרטי בעמוד סטטוס שירות ענן, הערה של החברה או ראיות מאומתות מהקוראים שלנו, נשנה את עמדתנו מאמירה "האם משהו לא בסדר?" ל"משהו לא בסדר".

אנו מאמינים שזו הדרך ההוגנת ביותר לגשת להפסקות קדימה. עם זאת, אם יש לך הצעות, שאלות או חששות, אנא אל תהסס לפנות אליי בסעיף ההערות.

דילוג לתוכן