به بهانهی حادثهی اخیر آروان، کمی از پاسخ به حادثه (incident response) گپ بزنیم. پاسخ به حادثههای بزرگ نه تنها از جهت فنی سخت و حساسه---بیشتر حادثههای بزرگ جدید و بیسابقهاند و مهارشون تا چندین شبانه روز میکشه---بلکه از جهت مدیریت فرایند و ارتباطات بیرونی هم بَل حساستر. (۱)
نخست، فرایند پاسخ «تیمی» به حادثه نیاز به از پیش فکر شدن و آموزش و مانور آمادگی داره، تا افراد دور خودشون نچرخن یا کارها لابهلای ارتباطات گم نشه یا کار تکراری یا (بدتر) کار اشتباهی انجام نشه. نرخ اشتباه در تب و تاب پاسخ به حادثه به شکل تعجبآوری بالاست - ادعای آماری نیست ... (۲)
... بلکه صرفا به آنچه به تجربه دیدم عرض میکنم. کار تیمی بهینه، از اون بدتر. در گوگل، از فرایند پاسخ به حادثهی آتشنشانها اقتباس شده با نقشها و وظیفههای مشخص. جزییات بیشتر اینجا: sre.google/workbook/incid…
مسلما به خوندن یک فصل کتاب نیست، نیاز به بحث و تمرین داره. مثلا ... (۳)
... هر کسی هر نقشی رو به عهده نمیگیره؛ مهمه که برای عوض کردن شیفت برنامه باشه (مثل رانندههای سیر و سفر)؛ کارهای انجام شده ردگیری بشه برای تمیزکاری بعد؛ داده برای کالبدشکافی (postmortem) نوشتن جمع بشه؛ حتی به افرادِ درگیر به ویژه تازهکارترها یادآوری بشه پا شن برن هوا بخورن. (۴)
دوم، ارتباطات بیرونی (بیرون از تیم فنی) حساب و کتاب و قالب داره، مثلا هر N ساعت یک بهروزرسانی منتشر میشه - اگر هم چیز جدیدی نمیدونیم میگیم چیز جدیدی نمیدونیم. مهمتر، ارتباط افراد با بیرون شرکت دربارهی حادثه تقریبا ممنوعه، به ویژه برای حادثههایی که روشون توجه هست. (۵)
تاکید میشه که اگر هم ازمون سوال شد یا باید فقط ارجاع بدیم به روابط عمومی یا چیزی بیشتر از اونچه پیشتر به طور عمومی منتشر نشده نگیم، حتی به نزدیکان، چه برسه به صحبت در شبکههای اجتماعی. این بخش تنها دربارهی پاسخ به حادثه نیست بلکه آموزش عمومی شرکته. (۶)
اگر برای تدوین پاسخ به حادثه در شرکتتون سوالی داشتید بگید گپ بزنیم.
پ.ن. اشارهی آغاز به حادثهی آروان تنها بهانهی نوشت این توییتها بود. چیزی دربارهی حادثه یا پاسخشون نمیدونم. ولی شب عید پای کارِ شبانهروزی پاسخ به حادثه بودن حتما عذابه و به بچههاشون خسته نباشید میگم. (۷)
• • •
Missing some Tweet in this thread? You can try to
force a refresh
دوستی شیرازی داشتم که سر صحبت از دیوان حافظ و لهجهی شیرازی، میگفت حافظ را باید «بیلهجه» خواند و منظورش از «بیلهجه»، لهجهی تهرانی بود. افسوس. یعنی نگاه «اصلیش ماییم و فرعیش شما» نه تنها برای طرف غالب نهادینه شده بلکه برای طرف مغلوب هم. (۱)
یک: یاد بگیریم بگوییم لهجهی تهرانی، لهجهی شیرازی، لهجهی هراتی، … نگوییم بیلهجه و بالهجه. واژه، اندیشه را شکل میدهد. بیلهجه نداریم. فارسی معیار؟ بیخیال! خواهم گفت.
دو: حافظ احتمالا به گوشش هم نخورده بوده که «نَمیتوان»، «نِمیتوان» تلفظ شود و «دستُم»، «دستَم». بله ... (۲)
... شیرازیِ سعدی و حافظ، شیرازیِ امروز نیست، ولی تهرانیِ امروز که اصلا هیچ! لهجهی حافظخوانی تنها مثالی برای آغاز سخن بود و موضوع این رشته توییت نیست. همچنین زبان گفتار رایج حافظ و سعدی، چیزی که در نوشتار منظومههایشان میبینیم نبوده، ولی آن هم موضوع این رشته نیست. (۳)
این هفته ارائهای در اتکاپذیری بود با عنوان «لامصب رادَسته» (gosh darn convenient) که نکات جالبی داشت، نکات سرراست و بدیهی ولی معمولا مغفول در طراحیها. (۱)
مثلا برای یک سیستم که فلان فایل ورودی/پیکربندی رو میگیره (مثلا برای مدیریت ترافیک، برای اِعمال بر درخواستها، برای کنترل سهمیهها، …) اون فایل رو براش کجا بگذاریم که بره برداره؟ چه جایی بهتر و رادَستتر از سرویس مدیریت نسخههای کُد (مثلا git)؟ هم دم دسته، هم به سادگی ... (۲)
قابل جستجو و مروره، هم بازبینی (code review) داره، هم میشه براش تستهای پیش-از-submit نوشت، هم مدیریت نسخه و تاریخچه داره. از قضا در گوگل زیاد این کارو میکنیم (البته git نیست) و از قضا حادثههای بزرگی آفریده چون این کار یعنی وابستگی محیط عملیاتی (production) به آنچه نباید. (۳)
امروز برخی سرویسهای گوگل برای ۴۵ دقیقه خوابید و رفت در خبرها. بیشتر outageهای بزرگ حاصل تعامل چند اشکال با همه، این بار در file system توزیعشدهی گوگل (Colossus) برای سرویسدهی به سیستم احراز هویت گوگل (GAIA). بهانهایست تا یک رویکرد سازمانی مرتبط و خیلی مهم رو مرور کنیم: (۱)
یک مثال که معمولا در کلاسهای دورهی معارفه مرور میشه اینه که یک بار یک بابایی یک configای در سیستم مدیریت jobها (سیستم Borg که بابای Kubernetes است) push کرد و کلّ گوگل رفت پایین! pagerها شروع کرد به زنگ و SREها این ور اون ور میدویدن و این حرفا. (۲)
این بابا، با این pushاش ظاهرا نامرتبط بود و بعید بود کار اون باشه، سریع به همه خبر داد و rollback هم کرد. و قضیه حل شد. این شخص که کل گوگل رو برای چند دقیقه آورده بود پایین، توبیخ شد؟ نه اتفاقا جایزه گرفت (peer bonus که همکار به همکار میده) چون دقیقا کارِ درست رو کرده بود. (۳)
بودجهی استادها، که ازش حقوق دانشجو و خرج سفرها و امکانات و ... رو میدن، دادنی نیست بلکه گرفتنیست و باید روزها وقت گذاشت و proposalها نوشت و از فلان شرکت و دولت و شهرداری بودجه گرفت برای پژوهش روی فلان مسالهها. خوب عیبیش چیه؟ (۱)
اینه که عمدتا کار به درد بخوری از این همه پول و زحمت درنمیآد و همه هم اینو میدونن و باز ادامه داره. یعنی بودجهایست که از طرف شرکت/دولت/شهرداری/... باید به اسم «پژوهش» صرف بشه و میشه. آوردهاش؟ چندتا مقاله و البته سفر به نصف دنیا! آوردهاش برای منبع بودجه؟ آها، اون هیچی. (۲)
مثال: استادِ بنده از چندین شرکت و نهاد معروف بودجه داشت تا براشون پژوهش کنه ولی نامشون یا نیازهاشون برای ما هنگام جهتدهی به پژوهشهامون اصلا مطرح نبود. تنها در پایان مقاله میگفتیم با حمایت اونا بوده.
مثال: گروهی از استادانِ نامیِ دانشگاهِ نامیِ ما، از شهرداری تورنتو ... (۳)
اگر در شرکتتون در استفادهی درست از OKR بحث دارید---چون بحثهاش رو دیدم میگم و اگر نه که چه بهتر---بد نیست بدونید که در خود گوگل که بابای اشاعهی OKR است هم، همهی تیمها یکشکل OKR استفاده نمیکنن یا کلا نمیکنن. ببینید چی برای خودتون بهینه است.
چند نکته که شاید به درد خورد:
(برای خوانندهی ناآشنا ولی علاقهمند: OKR=هدفگذاری)
۱. ارزیابی کارکنان/تیمها رو نباید ریخت تو OKRها، وگرنه هدفگذاری بلندپروازانه که هیچ، هدفگذاری معمولیتون هم عقیم میشه.
این خطا رو مدیران سنتی که OKR فقط براشون مُدِ روزه میکنن. اینجوری قضاوتی گفتم که قشنگ ازش دوری کنید.
۲. امتیاز ۳۰٪ در پایان فصل فقط یعنی هدفبندیمون نادقیق بوده و باید بهترش کنیم، نه این که اجرا ضعیف بوده - اجرا رو جور دیگه میسنجن نه با امتیاز OKR. همچنین امتیاز ۹۰٪ در پایان فصل هم باز یعنی هدفبندیمون نادقیق و محافظهکارانه بوده. ما دنبال ۷۰٪ایم ولی نسخه نمیپیچم.
متاسفانه اکثر قریب به اتفاق پژوهشها در این فضا پر از لافزنیاند، مثل تعریفی که بُنگاهی ماشین میکنه. ادعاهای گزاف و بزرگنمایی در کاربردها، رفتارِ پیشفرضه و همه میدونن و عادی شده. دربارهی کنفرانسها و ژورنالهای سطح اول هم صادقه. (۱)
در آغاز راه، همهی مقالهها به نظرتون فوقالعاده میان ولی عادت میکنید که به عهدهی شماست تا چرندیات رو تشخیص بدید، مثل inboxی که فیلتر spam نداره. متاسفانه همه به این مساله عادت کردن در حالی که این رویکرد بنگاهی (شاید طبیعی در جاهای دیگر ولی) برای محیط علمی و فنی مثل سرطانه. (۲)
برخلاف دنیای آکادمیک، در دنیای صنعت به ويژه محیط فنیِ شرکتهای حرفهای، چنین نیست - کسانی که اهل لافزنی باشن جدی گرفته نمیشن و به حاشیه میرن. حداقل در تجربهی بنده. (۳)