課程簡介
第一天涵蓋大數(shù)據(jù)平臺架構演變、湖倉一體數(shù)據(jù)架構實戰(zhàn)、StarRocks高性能MPP、數(shù)據(jù)湖工具Hudi實戰(zhàn)及Flink DataStream原理。第二天則聚焦Flink狀態(tài)和容錯、Flink SQL和Table開發(fā)、Flink CDC實戰(zhàn)解析及流批一體項目實戰(zhàn),包括RDBMS、Kafka、Flink CDC、FlinkSQL、ES和Kibana的整合應用。通過豐富案例分享,幫助學員掌握流批一體典型技術架構與應用場景,適用于大數(shù)據(jù)架構師及開發(fā)人員。
目標收益
培訓對象
課程大綱
Day1 大數(shù)據(jù)平臺的架構演變 |
數(shù)據(jù)湖架構案例實戰(zhàn) 離線計算大數(shù)據(jù)平臺架構 實時計算應用場景介紹 新一代湖倉一體架構 基于Flink實時數(shù)倉數(shù)倉解決方案 基于Flink+Hudi流批一體數(shù)據(jù)架構解決方案 |
Day1 湖倉一體數(shù)據(jù)架構實戰(zhàn)解析 |
數(shù)據(jù)接入大數(shù)據(jù)平臺 —離線數(shù)據(jù)接入 —實時的數(shù)據(jù)接入 數(shù)據(jù)處理過程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗 ?數(shù)據(jù)應用 —數(shù)據(jù)離線應用 —數(shù)據(jù)實時應用 —數(shù)據(jù)實驗室 數(shù)據(jù)展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 |
StarRocks架構和原理 StarRocks高性能MPP的特性 StarRocks的表設計介紹 — 數(shù)據(jù)模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數(shù)據(jù)類型 — 列級別索引 — 視圖 StarRocks應用場景介紹 StarRocks數(shù)據(jù)導入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實時數(shù)倉解決方案介紹 |
Day1 數(shù)據(jù)湖工具實戰(zhàn)解析 |
什么是Hudi 為什么會有Hudi Hudi整體架構 Hudi的文件結構介紹 Hudi數(shù)據(jù)存儲 Hudi數(shù)據(jù)合并的原理介紹 Hudi表格式介紹 Hudi的索引設計介紹 Hudi的元數(shù)據(jù)表介紹 Hudi表的存儲類型介紹 — COW存儲類型 — MOR存儲類型 Hudi時間軸服務介紹 Flink+Hudi整合實操 |
Day1 Flink DataStream原理 |
實時計算應用場景介紹 實時處理框架Flink簡介 Flink on Yarn運行機制介紹 Flink DataStream原理 Flink并行計算和DAG Flink API邏輯層次 DataStream轉換操作 數(shù)據(jù)分區(qū) Flink中的時間EventTime和ProcessingTime WateMark原理和實戰(zhàn) DataStream Window原理和實戰(zhàn) CountWindow介紹和實戰(zhàn) TimeWindow介紹和實戰(zhàn) |
Day2 Flink狀態(tài)和容錯 |
分布式流計算原理 流計算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實戰(zhàn) Exactly once語義原理和實戰(zhàn) Flink故障恢復原理和實戰(zhàn) Flink Checkpoint原理和實實現(xiàn) Flink快照Barrier原理和實戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實戰(zhàn) |
Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數(shù)據(jù)離線和增量同步工具Flink CDC實戰(zhàn)解析 |
Flink CDC實戰(zhàn)解析 傳統(tǒng)CDC工具實戰(zhàn)解析 CDC工具實戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數(shù)據(jù)同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數(shù)據(jù)寬表 Flink SQL如何集成CDC Flink CDC 作為數(shù)據(jù)采集層的優(yōu)勢 實操:老師演練項目 |
Day2 流批一體項目實戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn) |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn): Docker演示環(huán)境介紹 項目需求分析和解決方案設計 流式數(shù)倉分層模型設計 Flink CDC mysql實戰(zhàn) Flink CDC postgres實戰(zhàn) Flink CDC Kafka實戰(zhàn) Flink CDC ES實現(xiàn) Kibana結果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn) 實操:老師演練項目 |
Day2 流批一體大數(shù)據(jù)案例分享 |
流批一體典型的技術架構和應用場景介紹 大型互聯(lián)網(wǎng)Flink+hudi流批一體大數(shù)據(jù)架構和案例介紹 某銀行基于Flink的流批一體大數(shù)據(jù)架構和案例介紹 |
Day1 大數(shù)據(jù)平臺的架構演變 數(shù)據(jù)湖架構案例實戰(zhàn) 離線計算大數(shù)據(jù)平臺架構 實時計算應用場景介紹 新一代湖倉一體架構 基于Flink實時數(shù)倉數(shù)倉解決方案 基于Flink+Hudi流批一體數(shù)據(jù)架構解決方案 |
Day1 湖倉一體數(shù)據(jù)架構實戰(zhàn)解析 數(shù)據(jù)接入大數(shù)據(jù)平臺 —離線數(shù)據(jù)接入 —實時的數(shù)據(jù)接入 數(shù)據(jù)處理過程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗 ?數(shù)據(jù)應用 —數(shù)據(jù)離線應用 —數(shù)據(jù)實時應用 —數(shù)據(jù)實驗室 數(shù)據(jù)展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 StarRocks架構和原理 StarRocks高性能MPP的特性 StarRocks的表設計介紹 — 數(shù)據(jù)模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數(shù)據(jù)類型 — 列級別索引 — 視圖 StarRocks應用場景介紹 StarRocks數(shù)據(jù)導入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實時數(shù)倉解決方案介紹 |
Day1 數(shù)據(jù)湖工具實戰(zhàn)解析 什么是Hudi 為什么會有Hudi Hudi整體架構 Hudi的文件結構介紹 Hudi數(shù)據(jù)存儲 Hudi數(shù)據(jù)合并的原理介紹 Hudi表格式介紹 Hudi的索引設計介紹 Hudi的元數(shù)據(jù)表介紹 Hudi表的存儲類型介紹 — COW存儲類型 — MOR存儲類型 Hudi時間軸服務介紹 Flink+Hudi整合實操 |
Day1 Flink DataStream原理 實時計算應用場景介紹 實時處理框架Flink簡介 Flink on Yarn運行機制介紹 Flink DataStream原理 Flink并行計算和DAG Flink API邏輯層次 DataStream轉換操作 數(shù)據(jù)分區(qū) Flink中的時間EventTime和ProcessingTime WateMark原理和實戰(zhàn) DataStream Window原理和實戰(zhàn) CountWindow介紹和實戰(zhàn) TimeWindow介紹和實戰(zhàn) |
Day2 Flink狀態(tài)和容錯 分布式流計算原理 流計算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實戰(zhàn) Exactly once語義原理和實戰(zhàn) Flink故障恢復原理和實戰(zhàn) Flink Checkpoint原理和實實現(xiàn) Flink快照Barrier原理和實戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL和Table開發(fā)實戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數(shù)據(jù)離線和增量同步工具Flink CDC實戰(zhàn)解析 Flink CDC實戰(zhàn)解析 傳統(tǒng)CDC工具實戰(zhàn)解析 CDC工具實戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數(shù)據(jù)同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數(shù)據(jù)寬表 Flink SQL如何集成CDC Flink CDC 作為數(shù)據(jù)采集層的優(yōu)勢 實操:老師演練項目 |
Day2 流批一體項目實戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn) RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實戰(zhàn): Docker演示環(huán)境介紹 項目需求分析和解決方案設計 流式數(shù)倉分層模型設計 Flink CDC mysql實戰(zhàn) Flink CDC postgres實戰(zhàn) Flink CDC Kafka實戰(zhàn) Flink CDC ES實現(xiàn) Kibana結果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實戰(zhàn) 實操:老師演練項目 |
Day2 流批一體大數(shù)據(jù)案例分享 流批一體典型的技術架構和應用場景介紹 大型互聯(lián)網(wǎng)Flink+hudi流批一體大數(shù)據(jù)架構和案例介紹 某銀行基于Flink的流批一體大數(shù)據(jù)架構和案例介紹 |