加入收藏 | 设为首页 | 会员中心 | 我要投稿 吉安站长网 (https://www.0796zz.com.cn/)- 科技、图像处理、媒体智能、办公协同、操作系统!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

未来有哪些新趋势和机遇?

发布时间:2021-02-06 16:44:01 所属栏目:外闻 来源:互联网
导读:暖曰: 王独不闻魏文王之问扁鹊耶?曰:子昆弟三人其孰最善为医?扁鹊曰:长兄最善,中兄次之,扁鹊最为下。魏文侯曰:可得闻邪?扁鹊曰:长兄于病视神,未有形而除之,故名不出于家。中兄治病,其在毫毛,故名不出于闾。若扁鹊者,镵血脉,投毒药,副肌肤,闲

暖曰:“ 王独不闻魏文王之问扁鹊耶?曰:‘子昆弟三人其孰最善为医?’扁鹊曰:‘长兄最善,中兄次之,扁鹊最为下。’魏文侯曰:‘可得闻邪?’扁鹊曰:‘长兄于病视神,未有形而除之,故名不出于家。中兄治病,其在毫毛,故名不出于闾。若扁鹊者,镵血脉,投毒药,副肌肤,闲而名出闻于诸侯。’魏文侯曰:‘善。使管子行医术以扁鹊之道,曰桓公几能成其霸乎!’凡此者不病病,治之无名,使之无形,至功之成,其下谓之自然。故良医化之,拙医败之,虽幸不死,创伸股维。”

——《鶡冠子·卷下·世贤第十六》

与扁鹊三兄弟一样,如果想要让稳定性有价值,SRE同学一定不能站到系统的屁股后面等着擦屁股,必须走到前面,看到未来的风险。既要在发生问题时快速解决问题(做扁鹊),也要把风险归纳总结,推动解决(做二哥),还要在系统健康的时候评估链路,发现隐藏的问题(做大哥)。

  1. 做扁鹊大哥:在系统健康时发现问题
  2. 做扁鹊二哥:在系统有隐患时发现问题
  3. 做扁鹊:在系统发生问题时快速解决问题

(2)自动化、系统化、数据化

SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不可避免的,会面对很多重复性的工作,所以除了要在组织和机制上做好分工,让恰当的人做恰当的事之外,SRE人员要经常思考产品的系统化和弹性化,要常常思考下面几个问题:

  • 常常思考产品和系统哪里有问题,如何优化,如何体系化?
  • 常常思考有没有更好的办法,有没有提高效率的办法?
  • 常常思考如何让稳定性本身更加有价值,有意义?

这3个问题,我觉得可以从3个方面着手:

(1)自动化

这里自动化,包括自动和自助2个部分。自动是指能够系统能够对一些异常自动恢复、自动运维,这部分,也可以叫做“弹性”,它一方面包括兜底、容灾,另一方面也包括智能化、机器人和规则判断。比如,对一些可能导致问题的服务失败,能够自动走兜底处理逻辑,能够建立一个调度任务,自动对这部分数据进行调度处理;对一些机器的load飚高、服务抖动等,能自动重启,自动置换机器。

自助是让你的客户自己动手,通过提供机器人,自动识别订单类型,自动排查订单状态和节点,自动告知服务规则特征,自动匹配问题类型给出排查结果或排查过程等。

Google SRE设置了一个50%的上限值,要求SRE人员最多只在手工处理上花费50%的时间,其他时间都用来编码或者自动化处理。这个可以供我们参考。

(2)系统化

系统化,可以体现在SRE工作的方方面面,我觉得,可以主要在“监控、链路治理、演练” 3方面入手。这3个方面也正好对应着“发现问题、解决风险、因事修人” 3个核心。通过系统化,目的是让我们SRE的工作形成体系,不再是一个个“点”的工作,而是能够连成“面”,让SRE工作不再局限于“后期保障/兜底保障”,而是能够通过监控体系、链路风险、演练体系发现问题。

监控、链路治理和演练的系统化,将在后面的章节中详细探讨。

(3)数据化

稳定性工作,如果要拿到结果,做到可量化,可度量,就一定要在数据化上下功夫,这个数据化,包括如下几个方面:

  • 数据驱动:包括日志标准化和错误码标准化,能够对日志和错误码反馈的情况进行量化。
  • 数据对账:包括上下游对账、业务对账,能够通过对账,保障域内数据校准。
  • 轨迹跟踪:包括变更轨迹和数据轨迹,目标是实现数据的可跟踪,和变更的可回溯、可回滚。
  • 数据化运营:主要是将稳定性的指标量化,比如工单解决时间、工单数、报警数、报警响应时间、故障风险数、代码CR量,变更灰度时长等,通过量化指标,驱动团队同学建立量化意识,并且能给老板一份量化数据。

(编辑:吉安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读