السياق
مساء الجمعة الساعة 10:47 مساءً يأتي تنبيه Telegram: مركز البيانات الرئيسي معطل. ليس خادمًا، وليس رفًا — DC بأكمله. انقطاع التيار الكهربائي المتتالي، لم تصمد العاكسون.
28 حالة MariaDB / MySQL، 3 مجموعات Galera، 2 ProxySQL. كل شيء غير متصل.
الجدول الزمني
| الوقت | العمل |
|---|---|
| 22:47 | تنبيه PmaControl — التيار المستمر غير قابل للوصول |
| 22:49 | تأكيد OVH — حادث كهربائي بالتيار المستمر |
| 22:51 | تجاوز فشل DNS إلى DC الثانوي |
| 22:54 | Galera bootstrap على العقدة الباقية |
| 22:58 | ProxySQL إعادة التكوين التلقائي |
| 23:01 | أولاً حدد موافق على المجموعة الثانوية |
دروس
- النسخ الاحتياطية ليست كافية — بدون خطة استرداد تم اختبارها، فهي عديمة الفائدة
- Galera IST مقابل SST — الفرق بين دقيقتين وساعتين من التعافي
- اكتشف PmaControl الحادث خلال 12 ثانية — حتى قبل تنبيه OVH
الخلاصة
14 دقيقة بين التنبيه والاختيار الأول. هذه نتيجة التحضير وليس الحظ.
"لا تحل النسخة الاحتياطية محل استراتيجية الاسترداد." — PmaControl
تعليقات (0)
لا توجد تعليقات حتى الآن.
اترك تعليقا