موصى به, 2024

اختيار المحرر

سبب الجذر البشري الخطأ لانقطاع نوفمبر / تشرين الثاني في Microsoft Azure

من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل الØ

من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل الØ
Anonim

كان الخطأ البشري هو السبب في حدوث انقطاع في نوفمبر من خدمة التخزين السحابي في Microsoft Azure. وتأمل الشركة أن تساعد التحديثات الأخيرة التي تعمل على أتمتة العمليات اليدوية في السابق على منع حدوث انقطاعات مماثلة في المستقبل.

"كانت مايكروسوفت أزور تحتوي على إرشادات تشغيلية واضحة ، لكن كانت هناك فجوة في أدوات النشر التي تعتمد على القرارات والبروتوكولات البشرية". جيسون زاندر ، نائب رئيس مايكروسوفت لشركة أزور ، في مقال نشر يوم الأربعاء يوضح تفاصيل الانقطاع. "مع تحديثات الأدوات ، يتم تطبيق السياسة الآن بواسطة النظام الأساسي للنشر نفسه."

ليست هذه هي المرة الأولى التي يفسد فيها Azure بسبب الفشل البشري.

[المزيد من القراءة: أفضل خدمات البث التلفزيوني]

في فبراير 2013 ، أدت شهادة الأمان التي انقضت إلى انقطاع كبير في Azure.

توضح كلا الحالتين كيف يمكن حتى للأخطاء الصغيرة أن يكون لها تأثير كبير في خدمة كبيرة مثل Azure ، ويبدو أنها عززت لشركة Microsoft أهمية أتمتة الدليل العمليات بشكل شامل قدر الإمكان.

حدث هذا الانقطاع الأخير من Azure في وقت متأخر من مساء 18 نوفمبر ، بتوقيت المحيط الهادئ القياسي (19 نوفمبر التوقيت العالمي) ، بسبب الفشل المتقطع من بعض خدمات التخزين للشركة.

أصبحت خدمات Azure الأخرى التي تعتمد على خدمة التخزين أيضًا غير متصلة بالإنترنت ، وعلى الأخص أجهزة Azure الظاهرية.

نشأ هذا الانقطاع عن تغيير في تكوين خدمة التخزين ، وهو إجراء تم تحسينه لتحسين أداء الخدمة.

عادة ، هيئة التصنيع العسكري ستقوم rosoft ، مثل معظم مقدمي الخدمات السحابية الآخرين ، باختبار تغيير مقترح لخدماتها السحابية على عدد قليل من الخوادم. بهذه الطريقة ، إذا كانت هناك مشكلة في تغيير التكوين ، يمكن للمهندسين اكتشافها في وقت مبكر قبل أن يتأثر عدد كبير من العملاء. إذا كان التغيير يعمل كما هو متوقع ، فستقوم الشركة بعد ذلك بإدخال التغيير إلى عدد أكبر من الخوادم في موجات متتالية ، حتى يتم تحديث النظام بأكمله.

في حالة هذا التغيير بالتحديد ، افترض مهندس أن التحديث تم اختبارها بالفعل في عدد من الموجات (أو "الرحلات" في لغة مايكروسوفت) ، وهكذا مضت وطبقت التغيير عبر بقية النظام.

ولكن التكوين ، يحتوي على خلل بعيد المنال يسبب برنامج خدمة التخزين للذهاب إلى حلقة لا نهائية ، ومنع المزيد من الاتصالات مع المكونات الأخرى للنظام.

مهندسي مايكروسوفت بسرعة حددت المشكلة وإصدار إصلاحات. وبحلول الساعة 10:50 صباحاً ، كانت خدمة التخزين متوقفة بالكامل على الإنترنت ، على الرغم من استعادة جميع الأجهزة الافتراضية ، التي كان عدد صغير منها معزولًا عن الشبكة بسبب انقطاع التيار ، سيستغرق يومين آخرين.

في الأسابيع بعد ذلك ، حققت شركة Microsoft بالتفصيل في ما حدث من أخطاء ، وكذلك نظرت في طرق للتأكد من عدم حدوث الانقطاع مرة أخرى. ونتيجة لذلك ، قامت الشركة بتحديث نظام النشر الخاص بها بحيث تقوم الآن بتطبيق سياسات الاختبار والإقلاع قبل إدخال كود جديد أو التغيير عبر النظام بأكمله.

"مع تحديثات الأدوات ، يتم الآن فرض السياسة عن طريق النشر في وقت سابق من فبراير 2013 ، كان هناك عطل في البروتوكولات اليدوية. ذهبت أجزاء من النظام دون اتصال بسبب شهادات الأمن المنهارة. تمت جدولة عملية تطبيق الشهادات المحدثة على أجهزة Azure بتحديث روتيني أكبر ، وهو قرار اتخذه المهندسون الذين لم يكونوا على دراية بأن الشهادات الجديدة لن يتم تسليمها إلا بعد انتهاء صلاحية الشهادات القديمة.

بعد التحقيق في حادث نوفمبر أرادت شركة Microsoft مشاركة "تحليل الأسباب الجذرية" مع العملاء ، على حد قول زاندر ، على أمل أن يجد المستخدمون فعل الشفافية ليكون دليلاً على التزام Microsoft بتقديم خدمات استضافة السحابية الجيدة.

بشكل عام ، فإن عملية نشر يبدو أن تحليل السبب الجذري يرضي بعض مستخدمي Azure ومجتمع تكنولوجيا المعلومات على الأقل ، على الرغم من الدعاية السلبية الإضافية التي يمكن أن تجلبها مايكروسوفت.

"لقد رأيت العديد من الشركات التي يكون تحليلها كهذا للإدارة فقط. أعتقد أنه من الطبيعة البشرية فقط أن تكتسح الأخطاء والحوادث تحت السجادة ، ولكنها أيضًا تتحدث عن الثقافة في مثل هذه الشركات. وكتب مستخدم على موقع تجميع هاكر للأخبار: "الشهرة لشركة مايكروسوفت وكل لاعب كبير آخر يربط هذه الأشياء".

Top