درسهایی که می‌توان از اختلال در سرور ابری گوگل گرفت

اگر یکی از بزرگترین شرکتهای تکنولوژی دنیا دچار اختلال سرور ابری می‌شود ، پس احتمال بروز این مشکل درسایر سازمانها نیز وجود دارد. اختلال در سرور ابری گوگل یک آزمون جدی برای سازمانها و شرکتها بود و سبب شد نگرانیهای زیادی در مورد قابل اطمینان بودن سرور ابری و همچنین آسیب‌پذیر بودن ساختار این سرور ا به وجود بیاید.

 

 

این واقعه تأثیر بسیاری بر روی عملکرد و SLA ها داشت. این واقعه یک نمونهٔ عبرت‌آموز از بلایی است که اگر اپلیکیشن شما تنها متکی بر یک شرکت عرضه‌کنندهٔ سرور ابری باشد، ممکن است بر سر آن بیاید. بررسی‌ها نشان داد که با کاهش میزان دسترسی به برخی از سایتهای مطرح در زمینهٔ تجارت الکترونیک، رسانه‌ها و صنایع تولید بازی ، زمان بارگیری صفحات و پاسخگویی افزایش یافتند. این اختلال بر روی سرویسهای چندگانهٔ گوگل از جمله GSuite, Google Compute Engine, Google Nest, Snapchat, Discord و Shopify هم تأثیر گذاشت. این مشکل در ISP های مختلف و در مکانهای متفاوت به وجود آمد.

 

ایجاد استراتژی صحیح نظارت بر سرور ابری

پیچیدگی اینترنت سبب غیر قابل پیش بینی بودن آن شده است ، بنابراین ، وقوع حوادثی همچون اختلال سرور ابری گوگل اجتناب‌ناپذیر است. اینگونه حوادث به ما نشان می‌دهند که کدام بخش از کارهایی که تا به حال انجام می‌دادیم، نیاز به اصلاح دارد. این وقایع فرصتی برای ارزیابی مجدد فرایند‌ها و استراتژیهای موجود است تا در صورت وقوع مشکلاتی از این دست ،توان آمادگی لازم برای رویارویی با آنها را داشته باشیم. برخی از درسهایی که می‌توان از این مسئله گرفت، عبارتند از :

1. کورکورانه اعتماد نکنید

مهم نیست که عرضه‌کننده چقدر معروف، توانمند و یا فرایند- محور است، همیشه احتمال بروز خطا و اشتباه وجود دارد. اگر لازم است که سرویسهای دیجیتال شما کاملاْ( به صورت ۱۰۰٪) قابل دسترسی و قابل اعتماد باشند ، پس ساختار و استراتژی شما نیز باید در جهت رسیدن به این هدف باشد. زمانی که را برنامه‌ریزی لازم را در این زمینه کرده باشید و ساختار سازمان شما برای دستیابی به چنین سطحی از اعتماد طراحی شده باشد، سلامت اپلیکیشن شما وابسته به این خواهد بود که عملکرد و فرایندهای موجود در سازمان برای مدیریت بحرانهای مهم تا چه حد از این استراتژی تبعیت می‌کنند.

 

2. تنها به یک شرکت (عرضه‌کننده ) متکی نباشید.

اگر تمام سرویسها ، ابزار نظارتی / مشارکتی و پشتیبانی خود را تنها از یک شرکت عرضه‌کننده تأمین کنید و یا تنها از طریق یک ISP به سیستم متصل شوید ، زمینه را برای بروز یک فاجعه آماده کرده‌اید. به عنوان مثال، اگر اپلیکیشن شما بر روی یک سرور ابری یا سرور مجازی خاص قرار داشته باشد و ابزار نظارتی شما نیز بر روی همان سرور اجرا شود ، در صورت بروز مشکل نمی‌توانید هشدار لازم را دریافت کنید و یا مشکل ایجاد‌شده را برطرف کنید. ممکن است تیم شما پس از مواجهه با چند بار اشکال و ایراد ، دچار ترس از بروز وقفه‌های متناوب (FOMO) شوند. با تضمین این مسئله که سرویسهای اصلی، ابزارهای نظارتی و ارتباطی بر روی پلتفرمهای مختلف قرار گرفته‌اند و هیچ نقطهٔ ایراد مشترکی وجود ندارد ، اپلیکیشن خود را مقاوم و انعطاف‌پذیر کنید.

 

3. بر روی ابزارهای نظارتی سرمایه‌گذاری کنید.

اتکا به صفحات شرکت عرضه‌کننده در توییتر برای تشخیص اختلالات و یا میزان نارضایتی کاربران ، مثل قمار کردن بر روی وجههٔ تجاری خود و کسب رضایت کاربران است. بدون داشتن نظارت اختصاصی و یا نظارت از نوع نظارت از طریق جعبهٔ سیاه، نه می‌توانید عملکرد پایهٔ مناسبی داشته باشید و نه در صورت بروز وقفهٔ ناگهانی ، قادر به مقابله با آن خواهید بود. یک استراتژی نظارتی مناسب به شما اشراف کامل می‌دهد و می‌توانید سلامت شبکه . زیرساختهای IT خود را به خوبی پیگیری کنید.

این استراتژی به شما امکان می‌دهد که مواردی را که خدمات دیجیتال شما به آنها وابسته است، همچون عرضه‌کنندگان DNS ، CDNs ، API شرکا/ نمایندگیها ، عرضه‌کنندگان سرور ابری یا سرور اختصاصی و … را دسته‌بندی و از هم تفکیک کنید. این عملکرد و قابلیت دسترسی به اطلاعات می‌توانند دید مناسبی به شما بدهند که به بهینه‌سازی اپلیکیشن ، اینکه به کدام فروشندگان و نمایندگیها اطمینان کنید ، کمک می‌کند و خطر ایجاد آثار منفی بر رضایت کاربران نهایی را کاهش می‌دهد.

 

4. کار خود را به دفعات ارزیابی کنید.

بزرگترین دلیل بروز اختلال در سیستم ، اعمال تغییرات اشتباه در پیکربندی سیستم است . در بیش از ۹۰٪ موارد ، وقتی دلیل بروز اختلال را پیگیری می‌کنیم، به دستورات و یا تغییرات در پیکربندی می‌رسیم که یا به خوبی ارزیابی ( آزمایش) نشده‌اند و یا به درستی اعمال نشده‌اند.

بنابراین، ضروری است که در زمان استفاده از یک قانون جدید و یا اعمال تغییرات ، فرایند سخت‌گیرانه‌ای داشته باشید، فرایندی که وجود مراحلی برای اعتبارسنجی این تغییرات در آن لحاظ شده باشد. با استفاده از این فرایند می‌توانید بررسی کنید که آیا این تغییرات، آثار مطلوب و مورد نظر را داشته‌اند و اگر نداشته‌اند ، باید چکار کنید. هرگونه تغییر در پیکربندی را هم در محیطهای QA و هم در محیط تولید محدود با تستهای جدی و قدرتمند بسنجید تا اشتباهات و مشکلات عملکردی را بیابید. توصیه می‌کنیم که این تغییرات را در تعطیلات آخر هفته و یا اواخر شب که اپلیکیشن کمترین ترافیک دادهٔ تأثیرگذار بر کسب و کار را دارد، اعمال کنید ، بدین ترتیب کمترین تأثیر را بر روی میزان رضایت کاربران نهایی خواهد دشت.

 

5. SLAs را کنترل کنید و از فروشندگان / عرضه‌کنندگان بخواهید که پاسخگو باشند.

زمانی که یک فروشنده تلاش می‌کند تا اختلال ایجاد شده در سرور ابری را به سرعت برطرف کند، در حقیقت سعی می‌کند تا قبل از آنکه SLA دچار اختلال شود، راه‌حلی برای رفع این مشکل پیدا کند. نیازی نیست که در زمان از‌کار‌افتادن سیستم ، فروشندگان را عصبی کنید، آنها به خوبی می‌دانند که این وقفه به چه معنی است. با این حال، ارتباط مستمر و هماهنگی در مورد اتفاقی که رخ داده است و نحوهٔ رفع مشکل به وجودآمده ، عامل اصلی برای ایجاد اعتماد در هر دو طرف است. از عرضه‌کنندهٔ یک سرویس انتظار می‌رود که اختلالات SLA را جبران کند.

با این حال، این مسئولیت شماست که اختلال SLA را به فروشندگان اطلاع دهید. اما اگر تمام اطلاعات نظارتی از یک منبع به دست بیایند ، راهی برای سنجش صحت آنها و تشخیص دقیق کارهای جبرانی موردنیاز نخواهید داشت. نظارت از ظریق چند منبع مختلف مانند انواع شبکه و ISP اطلاعات بی‌طرفانه‌ای در اختیار شما قرار می‌دهد. بدین ترتیب شما می‌توانید از فروشنده بخواهید که برای هر لحظه و هر مسیلهٔ جزئی که بر رضایت کاربر نهایی تأثیر می‌گذارد، پاسخگو باشد.

 

نمایش خودتان را اجرا کنید

تحولات دیجیتال ما را مجبور کرده است که ساختار سنتی اپلیکیشنها که در آن بر عناصر اصلی زنجیرهٔ ارائهٔ محصول کنترل و نظارت انجام می‌شد ، کنار بگذاریم. سناریوهای فعلی اغلب این عناصر حیاتی را به عرضه‌کنندگان سرور ابری و سرور مجازی سپرده‌اند. این تغییر رویکرد به سوی سرور ابری منجر به کاهش نظارت و محدودیت کنترل شده است که کسب رضایت کاربر نهایی را بیشتر در معرض خطر قرار می‌دهد.

بنابراین در محیط سرور ابری، این عرضه‌کنندهٔ سرور ابری است که نمایش خود را اجرا می‌کند. شما تنها می‌توانید کناری بنشینید و امیدوار باشید که عرضه‌کننده از SLA پشتیبانی و مراقبت کند. اما آیا این بهترین روش برای مدیریت عملکرد اپلیکیشن شما است؟ قطعاْ اینطور نیست. خطرات موجود در این رویرد را نمی‌توان نادیده گرفت( این رویکرد بر تمام جوانب از میزان درآمد، کارایی و بهره‌وری شما گرفته تا وجههٔ تجاری شما تأثیر می گذارد.)

 

بطور متوسط تیمهای IT هر ماه ۴۶ ساعت وقت صرف ادارهٔ اختلالات و مشکلات مربوط به عملکرد می‌کنند. این امر به دلیل وجود استراتژیهای ناکارامد و نامناسب است که سبب طولانی شدن متوسط زمان لازم برای تشخیص مشکل/ تأیید سلامت سیستم (MTTD/I)و به دنبال آن سبب تأخیر در متوسط زمان لازم برای تعمیر و رفع مشکل (MTTR)می‌شوند. در زمان بروز بحران تیمهای مختلفی در سازمان از جمله تیمهای SRE ، Ops و IT ناچار به بررسی مشکل می‌شوند و قادر به حفظ MTTR در حد قابل قبول نیستند.

نتیجه

ساختار صحیح خدمات و استراتژیهای نظارتی مناسب به شما امکان می‌دهد که نمایش خودتان را اجرا کنید ، کنترل را به دست بگیرید و مجدداْ بر سیستم اشراف داشته‌باشید. به کار گیری استراتژیهای نظارتی صحیح سبب می‌شود که اپلیکیشن شما دچار نقص در عملکرد نشود. این امر به تیمهای IT و افرادی که در اداره و رفع مشکلات عملکردی نقش دارند، کمک می‌کند و هر زمان که با بحرانی از این دست مواجه می‌شوند، به آنها اعتماد به نفس می‌دهد.

نظر

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *