加入收藏 | 设为首页 | 会员中心 | 我要投稿 吉安站长网 (https://www.0796zz.com.cn/)- 科技、图像处理、媒体智能、办公协同、操作系统!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

知其然更要知其所以然

发布时间:2021-02-06 16:38:49 所属栏目:外闻 来源:互联网
导读:组织大家按照故障场景梳理的应对方案进行应对,如果没有在故障场景列表中,一定要组织最熟练的人员进行定位和恢复。 故障过程中,对外通信要跟团队和老板统一评估过再说; 处理故障过程中,要随时组织同学们进行影响数据捞取和评估,捞出来的数据,要优先跟老
  • 组织大家按照故障场景梳理的应对方案进行应对,如果没有在故障场景列表中,一定要组织最熟练的人员进行定位和恢复。
  • 故障过程中,对外通信要跟团队和老板统一评估过再说;
  • 处理故障过程中,要随时组织同学们进行影响数据捞取和评估,捞出来的数据,要优先跟老板、业务熟练的同学一起评估是否有错漏。
  • 在处理完故障后,要及时组织复盘(不管GOC是不是统一组织复盘,内部都要更加深刻的复盘),复盘流程至少包括:详细的时间线,详细的原因,详细的定位和解决方案,后续action和改进措施,本次故障的处理结果。

我个人其实不太赞同预案自动化和强运营的故障应急方案,这一点也是给安全生产同学的建议,比如预案自动化,有很强的局限性,只有在明确预案的执行肯定不会有问题、或者明显有优化作用的情况下,才能自动执行。否则都应该有人为判断。

强运营类的工作,会导致人走茶凉,比如GOC上自动推送的预案,故障场景关联的监控这种,一方面应该尽量减少强运营的工作,另一方面应该定期组织维护一些必要预案。

5 与兄弟团队的关系

如果兄弟团队发生故障,一定注意:

  1. 不能嘲笑别人,看笑话。
  2. 不能当没事人,高高挂起,要检查自身。
  3. 不能话说的太满,比如说我肯定没故障。

尤其是1和3,非常邪性,嘲笑别人的团队,或者觉得自己万事大吉,很容易沾染故障。(其实本身是由科学依据的,嘲笑别人的,一般容易放松警惕)

4 资源管控

作为一个SRE,在资源管控领域,一定要保证自己域有足够的机器,同时又不会浪费太多。我个人的建议是,核心应用,应该控制load在1-1.5左右(日常峰值或A级活动场景下),控制核心应用在10个以内,非核心应用,应该控制load在1.5-2左右(日常峰值或A级活动场景下)。目前集团很多应用load不到1,甚至只有0.几,其实很浪费的。

同时,一个团队的SRE,至少随时手上应该握有20%左右的空余额度buffer,方便随时扩容,或者应对新业务增长。这些额度,目前按照集团的预算策略,只要不真的扩容上去,都是不收费的,所以应当持有。

除了机器以外,tair、db、消息、精卫等,也要如上操作,除了年初准备好一年的预算,还要额外准备20%左右的buffer。

SRE要自己梳理一份资源表,表中一方面要明确有哪些资源,余量多少,另一方面要明确资源的当前水位、压力。

比如机器资源,要关注当前机器数、额度、load,如:
 

当然,常识也不仅仅是这些。物理学只是常识的一个领域。我们忽略了一些心理学概念(如相信某件事或表达出不开心)以及相关的常识性社会概念(如与某人某物在一起,或给予某人某物)。

物理上讲,上述实验的重点是固体。更完整的还应该包括液体(水坑、溪流、瓶中的酒)、气态物质(烟、雾、火焰)和颗粒物(土壤、沙子),甚至包括可变形物体(海绵、纸张、绳子、衣服、树叶、树枝、动物的身体)和空间(洞、门道、入口)等。

从这个意义上讲,常识可以看作是一组相互关联的基本原则和抽象概念。更高更抽象的层面上,还包括类比和隐喻的运用。

(编辑:吉安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读