課程簡介
Google 對 SRE 解釋是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
與 DevOps 工程師的高效能有所不同,SRE 的關鍵詞包括:高擴展性、高可用性。其職責包括:
為應用、中間件、基礎設施等提供選型、設計、開發(fā)、容量規(guī)劃、調優(yōu)、故障處理,為業(yè)務系統(tǒng)提供基于可用性、可擴展性考慮決策,參與業(yè)務系統(tǒng)設計和實施定位、處理、管理故障,優(yōu)化導致故障發(fā)生相關部件,提高各部件資源利用率。
目標收益
1. SRE的歷史及其在Google中的實踐
2. SRE與DevOps和其他流行框架的相互關系
3. SRE背后的基本原則
4. 可觀測性可以指示服務的運行狀況
5. SRE工具,自動化技術和安全性的重要性
6. 抗脆弱性,我們的失敗和失敗測試方法
7. 引入SRE帶來的組織影響
培訓對象
適用于開發(fā)業(yè)務相關的軟件架構師、軟件設計師、運維架構師、高級運維、運維經理、運維總監(jiān)
課程大綱
第一單元 概念拉齊 SRE原則與實踐 |
什么是站點可靠性工程? SRE和DevOps:有什么區(qū)別? SRE原則與慣例 SRE工作的流程是什么?(涉及多個團隊相關的) |
第二單元 流程與規(guī)范 SRE工作的流程與規(guī)劃的建議 |
變更流程 變更控制表標準 故障處理流程(涉及一線、產研之間的流程) 故障演練設計 故障復盤報告模板 |
第三單元 IDC建設思路 IDC建設 |
IDC 整體設計 機房、硬件、網(wǎng)絡、電源、鏈路、UPS 高可用網(wǎng)絡保障方法 跨IDC網(wǎng)絡保障 IDC的監(jiān)控與自動化方法 |
第三單元 案例介紹 企業(yè)SRE案例 |
背景 SRE團隊規(guī)模介紹 SRE 職責 SRE 處理工作流程 整體運維工具支撐介紹 能力構建路徑串講 |
第四單元 監(jiān)控系統(tǒng) 監(jiān)控系統(tǒng)介紹 |
監(jiān)控源:物理,平臺,虛擬機,業(yè)務,鏈路, 監(jiān)控核心指標定義 拔測系統(tǒng)構架設計 網(wǎng)絡鏈接監(jiān)控的定義與方法 監(jiān)控與其它系統(tǒng)的自動化建設 |
第五單元 組織架構 組織如何采用SRE |
SRE的規(guī)模 人員能力 基礎架構 產品sla 定義 |
第六單元 AIOPS 2個AIOPS場景介紹 |
根因分析場景 故障預測場景 |
討論 |
公有云運維工具簡介 客戶場景討論 |
第一單元 概念拉齊 SRE原則與實踐 什么是站點可靠性工程? SRE和DevOps:有什么區(qū)別? SRE原則與慣例 SRE工作的流程是什么?(涉及多個團隊相關的) |
第二單元 流程與規(guī)范 SRE工作的流程與規(guī)劃的建議 變更流程 變更控制表標準 故障處理流程(涉及一線、產研之間的流程) 故障演練設計 故障復盤報告模板 |
第三單元 IDC建設思路 IDC建設 IDC 整體設計 機房、硬件、網(wǎng)絡、電源、鏈路、UPS 高可用網(wǎng)絡保障方法 跨IDC網(wǎng)絡保障 IDC的監(jiān)控與自動化方法 |
第三單元 案例介紹 企業(yè)SRE案例 背景 SRE團隊規(guī)模介紹 SRE 職責 SRE 處理工作流程 整體運維工具支撐介紹 能力構建路徑串講 |
第四單元 監(jiān)控系統(tǒng) 監(jiān)控系統(tǒng)介紹 監(jiān)控源:物理,平臺,虛擬機,業(yè)務,鏈路, 監(jiān)控核心指標定義 拔測系統(tǒng)構架設計 網(wǎng)絡鏈接監(jiān)控的定義與方法 監(jiān)控與其它系統(tǒng)的自動化建設 |
第五單元 組織架構 組織如何采用SRE SRE的規(guī)模 人員能力 基礎架構 產品sla 定義 |
第六單元 AIOPS 2個AIOPS場景介紹 根因分析場景 故障預測場景 |
討論 公有云運維工具簡介 客戶場景討論 |