知其然更要知其所以然

发布时间：2021-02-06 16:38:49 所属栏目：外闻来源：互联网

导读：组织大家按照故障场景梳理的应对方案进行应对，如果没有在故障场景列表中，一定要组织最熟练的人员进行定位和恢复。故障过程中，对外通信要跟团队和老板统一评估过再说; 处理故障过程中，要随时组织同学们进行影响数据捞取和评估，捞出来的数据，要优先跟老

组织大家按照故障场景梳理的应对方案进行应对，如果没有在故障场景列表中，一定要组织最熟练的人员进行定位和恢复。
故障过程中，对外通信要跟团队和老板统一评估过再说;
处理故障过程中，要随时组织同学们进行影响数据捞取和评估，捞出来的数据，要优先跟老板、业务熟练的同学一起评估是否有错漏。
在处理完故障后，要及时组织复盘(不管GOC是不是统一组织复盘，内部都要更加深刻的复盘)，复盘流程至少包括：详细的时间线，详细的原因，详细的定位和解决方案，后续action和改进措施，本次故障的处理结果。

我个人其实不太赞同预案自动化和强运营的故障应急方案，这一点也是给安全生产同学的建议，比如预案自动化，有很强的局限性，只有在明确预案的执行肯定不会有问题、或者明显有优化作用的情况下，才能自动执行。否则都应该有人为判断。

强运营类的工作，会导致人走茶凉，比如GOC上自动推送的预案，故障场景关联的监控这种，一方面应该尽量减少强运营的工作，另一方面应该定期组织维护一些必要预案。

5 与兄弟团队的关系

如果兄弟团队发生故障，一定注意：

不能嘲笑别人，看笑话。
不能当没事人，高高挂起，要检查自身。
不能话说的太满，比如说我肯定没故障。

尤其是1和3，非常邪性，嘲笑别人的团队，或者觉得自己万事大吉，很容易沾染故障。(其实本身是由科学依据的，嘲笑别人的，一般容易放松警惕)

4 资源管控

作为一个SRE，在资源管控领域，一定要保证自己域有足够的机器，同时又不会浪费太多。我个人的建议是，核心应用，应该控制load在1-1.5左右(日常峰值或A级活动场景下)，控制核心应用在10个以内，非核心应用，应该控制load在1.5-2左右(日常峰值或A级活动场景下)。目前集团很多应用load不到1，甚至只有0.几，其实很浪费的。

同时，一个团队的SRE，至少随时手上应该握有20%左右的空余额度buffer，方便随时扩容，或者应对新业务增长。这些额度，目前按照集团的预算策略，只要不真的扩容上去，都是不收费的，所以应当持有。

除了机器以外，tair、db、消息、精卫等，也要如上操作，除了年初准备好一年的预算，还要额外准备20%左右的buffer。

SRE要自己梳理一份资源表，表中一方面要明确有哪些资源，余量多少，另一方面要明确资源的当前水位、压力。

比如机器资源，要关注当前机器数、额度、load，如：

当然，常识也不仅仅是这些。物理学只是常识的一个领域。我们忽略了一些心理学概念(如相信某件事或表达出不开心)以及相关的常识性社会概念(如与某人某物在一起，或给予某人某物)。

物理上讲，上述实验的重点是固体。更完整的还应该包括液体(水坑、溪流、瓶中的酒)、气态物质(烟、雾、火焰)和颗粒物(土壤、沙子)，甚至包括可变形物体(海绵、纸张、绳子、衣服、树叶、树枝、动物的身体)和空间(洞、门道、入口)等。

从这个意义上讲，常识可以看作是一组相互关联的基本原则和抽象概念。更高更抽象的层面上，还包括类比和隐喻的运用。

（编辑：吉安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Maxar携手多领域行业创	100Mbps！美国倡议全球
TikTok电商：东南亚冲	土耳其今年矿产出口估