Google توضح أسباب الانقطاع الضخم في Gmail و YouTube بسبب “صفر” خطأ

168

كشفت Google أن القيمة “الصفرية” البسيطة كانت وراء فشل نظام المصادقة العالمي الذي منع الوصول إلى خدمات YouTube وGmail وGoogle Cloud Platform. بعد يوم من الحادث يوم الاثنين 14 الماضي، قالت جوجل في تحليل تمهيدي أن السبب الأساسي كان مشكلة في نظام إدارة حصص التخزين الآلي، مما قلل من قدرة نظام إدارة الهوية المركزي، وبالتالي منع الجميع من الوصول إلى العديد من خدمات جوجل. التي تتطلب من المستخدمين تسجيل الدخول.

استمر الانقطاع 50 دقيقة فقط لكنه منع الوصول إلى Gmail وYouTube لمليارات المستخدمين في جميع أنحاء العالم. أثر الحادث أيضًا على الشركات التي تعتمد على Google Cloud Platform لموارد الحوسبة.

توضح الصورة التي يرسمها مهندسو جوجل في تقرير الحوادث الكامل حدثًا قصير الأجل ولكنه كبير، والذي وصل جميعًا إلى خطأ “صفر” ناتج عن نظام حصة التخزين القديم الذي تستخدمه جوجل لتوفير التخزين تلقائيًا لنظام المصادقة الخاص بها.

“كجزء من الترحيل المستمر لخدمة معرف المستخدم إلى نظام حصص جديد، تم إجراء تغيير في أكتوبر لتسجيل خدمة معرف المستخدم بنظام الحصص الجديد، ولكن تم ترك أجزاء من نظام الحصص السابق في مكانها الذي تم الإبلاغ عنه بشكل غير صحيح وقال التقرير إن استخدام خدمة معرف المستخدم هو 0 “.

“نتيجة لذلك، تم تقليل الحصة النسبية لقاعدة بيانات الحساب، مما منع قائد Paxos من الكتابة. وبعد فترة وجيزة، أصبحت غالبية عمليات القراءة قديمة مما أدى إلى حدوث أخطاء في عمليات البحث عن المصادقة.”

تقول جوجل إن الانقطاع ناتج عن التغييرات التي أجرتها على خدمة معرف مستخدم Google في أكتوبر كجزء من الترحيل إلى نظام الحصص الجديد.

كانت خدمة معرّف مستخدم جوجل في قلب الانقطاع، والتي تحتوي على معرّف فريد لكل حساب وتعالج بيانات اعتماد المصادقة لرموز OAuth المميزة وملفات تعريف الارتباط. تُستخدم رموز OAuth المميزة لتسجيل دخول الأشخاص إلى خدمة ما دون مطالبة المستخدم بإدخال كلمة مرور أو إعادة إدخالها.

يخزن جوجل بيانات الحساب هذه في قاعدة بيانات سحابية موزعة، والتي تستخدم بروتوكولات Paxos لتنسيق التحديثات بعد الاتفاق على قيم البيانات اللازمة للمعالجة.

يوضح Google أنه “لأسباب أمنية، سترفض هذه الخدمة الطلبات عندما تكتشف بيانات قديمة”.

“أدت فترة السماح الحالية لفرض قيود الحصة إلى تأخير التأثير، والذي انتهى في النهاية، مما أدى إلى تشغيل أنظمة الحصص الآلية لتقليل الحصة المسموح بها لخدمة User ID وبدء تشغيل هذا الحادث. توجد فحوصات أمان قائمة لمنع العديد من التغييرات غير المقصودة في الحصة، ولكن في الوقت الذي لم يغطوا فيه سيناريو عدم وجود حمل مُبلغ عنه لخدمة واحدة “. 

قامت جوجل أيضًا بتفصيل مدى التأثير على المستخدمين عبر Google Cloud Storage وGoogle Cloud Network وGoogle Kubernetes Engine (GKE) وGoogle Workspace (G Suite سابقًا) ودعم Google السحابي. 

“في يوم الاثنين 14 كانون الأول (ديسمبر) 2020 من الساعة 03:46 إلى الساعة 04:33 في الولايات المتحدة / المحيط الهادئ، أخفق إصدار بيانات الاعتماد وعمليات البحث عن البيانات الوصفية للحساب لجميع حسابات مستخدمي Google. ونتيجة لذلك، لم نتمكن من التحقق من مصادقة طلبات المستخدم وعرض أخطاء 5xx على تقريبًا كل حركة المرور المصادق عليها “، كما تقول جوجل في التقرير عن حادث Google Cloud Infrastructure Components 20013 .

أكدت جوجل أن “جميع تطبيقات Google Workspace التي تمت مصادقتها كانت معطلة طوال مدة الحادث” وأن حوالي “4٪ من الطلبات إلى واجهة برمجة تطبيقات مستوى التحكم GKE قد فشلت، وتقريبًا جميع أعباء العمل التي تديرها Google والعملاء لا يمكنها إبلاغ المراقبة السحابية. “

واجهت غالبية خدمات جوجل المصادق عليها “معدلات أخطاء مرتفعة عبر جميع Google Cloud Platform و Google Workspace APIs and Consoles”.

وقالت جوجل إنه بينما تعافت معظم الخدمات تلقائيًا بسرعة، كان لبعض الخدمات “تأثير فريد أو طويل الأمد”. 

لاحظت جوجل في تصحيح نُشر يوم الثلاثاء لتحليل السبب الجذري أن “جميع الخدمات التي تتطلب تسجيل الدخول عبر حساب Google تأثرت بتأثيرات متفاوتة”.

موضوعات أخرى .. للتعرف أكثر على كل جديد لأخبار جوجل تابعنا من خلال الرابط