Flink CDC 概述
CDC(Change Data Capture ):变更数据获取
核心思想是,监测并捕获’数据库的变动’(包括数据或数据表的插入 . 更新 以及 删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
Flink-CDC : 可以直接从 MySQL. PostgreSQL 等数据库直接”读取全量数据”和”增量变更数据”的 source 组件。 基于”Binlog”
CDC技术应用场景
1. 数据同步,用于备份,容灾
2. 数据分发,一个数据源发送到多个下游
3. 数据采集(E),面向数据仓库/数据湖的ETL数据集成
graph LR
A[Database] -- Update Data --> B[CDC工具]
B --> C[Search Index]
B --> D[Cache]
-
基于Flink CDC 的ETL 分析
-
基于Flink CDC 的数据打宽
-
基于Flink CDC 的聚合分析
基础环境
案例 api
案例2
pom.xml
CDC设计实现:
1、Chunk切分
2、Chunk读取
3、Chunk分配
4、Chunk汇报
5、Chunk分配