Scope
这张地图用于组织大数据全栈工程师的能力体系:从数据接入、批流计算、湖仓存储、调度运维,到治理、BI、数据服务和 DATA+AI Agent。
Core Concepts
- Bigdata Wiki OS
- Data Architecture
- Data Integration
- Data Store
- Data Model
- Data Visual
- Bigdata With AI
Engineering Backbone
flowchart LR A["Source / CDC / Log"] --> B["Ingestion"] B --> C["Storage: Lake / Warehouse / Lakehouse"] C --> D["Compute: Batch / Stream"] D --> E["Modeling / Metrics"] E --> F["Serving: BI / API / Agent"] G["Governance"] -.-> B G -.-> C G -.-> D G -.-> E G -.-> F
Technology Map
- Ingestion: Kafka, Kafka Connect, CDC, Apache Flume, Apache Nifi
- Batch: Spark, MapReduce, Apache Hive
- Streaming: Apache Flink, Streaming Processing, Flink CDC
- Storage: HDFS, Data Lake, Lakehouse, ClickHouse, StarRocks, Apache Doris
- Scheduling: Apache Airflow, Apache DolphinScheduler
- Modeling: Dimensional Modeling, Indicator System, Semantic Layer
- AI Enablement: Data Agent Architecture, Text2SQL, RAG, Agent
Practices
- 设计一条从 ODS 到 DWD/DIM/DWS/ADS 的标准链路。
- 为关键 Pipeline 定义 SLA、质量规则、血缘和故障恢复路径。
- 用 Metadata Management 和 Data Quality 把工程能力沉淀为可治理资产。
- 用 Semantic Layer 和 Indicator System 支撑 BI、ChatBI 和 Text2SQL。
Questions
- 如何解释批处理、流处理和流批一体的差异?
- 如何定位 Kafka 到 Flink 到 OLAP 的端到端延迟?
- 如何设计数仓分层并治理 ODS 直连报表?
- 如何把数据平台能力转化为业务价值指标?
Outputs
- 大数据工程能力雷达
- 实时数仓架构图
- Pipeline SLA 和质量规则清单
- 面试项目案例集
Links
- part-of:: Bigdata Wiki OS
- related:: MOC-数据架构师能力地图
- related:: MOC-DATA+AI Agent 地图