一句话定位

Bigdata Wiki OS 是一个面向大数据全栈工程师、数据架构师与未来 CDO / CDAO 角色的个人知识图谱系统,融合 DCMM、DAMA-DMBOK、数据工程、数据架构、商业分析与 DATA+AI Agent 能力,用于工作交付、项目沉淀、面试准备、演讲教程和长期职业资产建设。

它不是资料收藏夹,而是一个持续编译的 Markdown Wiki:原始资料、项目经验、面试题、架构图、代码片段、业务案例和 AI 对话会被逐步沉淀为可双链、可复用、可审计、可生成交付物的知识资产。

设计原则

  1. 以角色能力为主线:从大数据工程师、数据架构师、数据治理负责人、CDO/CDAO 四类角色反推知识结构。
  2. 以企业数据价值链为骨架:数据战略 数据架构 数据集成 数据存储 数据计算 数据治理 数据服务 数据产品 业务价值。
  3. 以 DCMM 和 DAMA 做治理坐标系:DCMM 负责成熟度和能力项,DAMA 负责国际化数据管理知识域。
  4. 以 Obsidian 双链做知识神经网络:每篇笔记必须连接上游概念、下游实践、项目案例、工具产品或面试问题。
  5. 以 AI Agent 做知识编译器:AI 不只回答问题,还要把原始资料编译成结构化笔记、图谱关系、模板、检查清单和演讲材料。
  6. 以交付物反哺知识库:方案、PPT、面试回答、架构评审、排障复盘都要回流成可复用资产。

总体架构

Architecture

Bigdata Wiki OS Operating Model

Source
Work Evidence 项目经验、复盘、方案、代码、SQL
External Knowledge 标准、文档、论文、课程、面试题
Compile
AI Agent 摘要、分类、双链推荐、图表生成、质量审查
Governance Lens DCMM、DAMA、CDO/CDAO 价值映射
Wiki
MOC 主题地图、职业能力地图、治理地图
Knowledge Cards 概念、架构模式、Playbook、案例和面试资产
Output
Delivery 工作方案、架构评审、演讲教程、个人网站
Agent Context 可检索、可引用、可审计的数据知识上下文

组件版用于正式页面展示;下方 Mermaid 保留为可快速编辑的结构草图。

flowchart TB
  subgraph S["Source Layer 原始输入"]
    S1["项目经验/复盘"]
    S2["官方文档/标准"]
    S3["论文/书籍/课程"]
    S4["面试题/演讲稿"]
    S5["代码/SQL/配置"]
    S6["AI 对话记录"]
  end

  subgraph C["Compile Layer AI 编译层"]
    C1["摘要与术语抽取"]
    C2["DCMM/DAMA 分类"]
    C3["双链推荐"]
    C4["图表生成"]
    C5["质量审查"]
  end

  subgraph W["Wiki Layer Obsidian/Quartz"]
    W1["MOC 主题地图"]
    W2["Concept 概念卡"]
    W3["Pattern 架构模式"]
    W4["Playbook 落地手册"]
    W5["Case 项目案例"]
    W6["Interview 面试资产"]
  end

  subgraph O["Output Layer 输出"]
    O1["工作方案"]
    O2["架构评审"]
    O3["演讲教程"]
    O4["面试回答"]
    O5["个人网站"]
    O6["Agent 工具上下文"]
  end

  S --> C --> W --> O
  O --> S

顶层知识域

建议把知识库组织为 12 个顶层域。现有仓库已经有 Data ArchitectureData ModelData StoreApache HadoopApache FlinkData VisualAI 等目录,可以在现有结构上渐进扩展。

Phase 1 导航入口

知识域核心问题代表笔记主要输出
00-Map我的知识库如何导航MOC-大数据全栈工程师能力地图MOC-数据架构师能力地图首页、MOC、图谱
01-Data Strategy数据如何服务业务战略数据战略、数据资产化、CDO数据战略方案
02-Data Governance数据如何被管理和治理DCMMDAMA-DMBOKMetadata ManagementData Quality治理体系、评估表
03-Data Architecture数据系统如何分层与演进Data ArchitectureLakehouseData Warehouse架构蓝图、技术路线
04-Data Modeling如何把业务转成数据模型Dimensional ModelingE-R ModelIndicator SystemSemantic Layer模型设计、指标口径
05-Data Engineering数据如何采集、同步、调度、计算KafkaApache FlinkSparkCDCPipeline、SLA、排障手册
06-Data Platform平台如何支撑规模化交付数据中台、湖仓平台、元数据平台平台规划、产品方案
07-Data Quality & Security如何保证可信、合规、安全Data Quality、数据安全、权限、审计质量规则、安全方案
08-Analytics & BI如何把数据变成洞察Data Visual、指标分析、经营分析Dashboard、分析报告
09-Data Product如何把数据做成产品数据服务、API、标签、画像、推荐数据产品 PRD
10-DATA+AI AgentAI 如何增强数据工作Data Agent ArchitectureAgentRAG、Text2SQL、LLMOpsAgent 方案、自动化流程
11-Career Assets如何服务职业发展面试题、演讲、案例集、英文表达简历、面试库、课程

DCMM / DAMA / CDO 三轴映射

DCMM 轴:能力成熟度

按 GB/T 36073-2025,DCMM 2.0 已从 2018 版演进为 9 个能力域:数据战略、数据治理、数据架构、数据资产、数据标准、数据质量、数据安全、数据生存周期、数据应用流通。知识库应把每篇治理和架构类笔记映射到这些能力域。

dcmm_domain: 数据架构
dcmm_process: 元数据管理
maturity_level: L2-受管理
evidence:
  - 元数据采集流程
  - 血缘分析截图
  - 数据目录使用规范

DAMA 轴:数据管理知识域

DAMA-DMBOK 提供国际化的数据管理知识框架,适合把知识库的概念、职责、活动、产出物标准化。建议每篇核心笔记都标注 DAMA 知识域:

dama_area:
  - Data Governance
  - Data Architecture
  - Metadata Management
  - Data Quality

CDO/CDAO 轴:经营价值

CDO/CDAO 视角要求每个知识点能回答三个问题:

  1. 这个能力如何降低风险、成本或交付周期?
  2. 这个能力如何提升收入、效率、客户体验或决策质量?
  3. 这个能力如何支持 AI、自动化或数据产品化?
cdo_value:
  business_goal: 提升经营分析时效
  value_metric: T+1 -> T+0
  risk_control: 口径一致性、权限审计、质量监控
  ai_enablement: 指标语义层支持 Text2SQL 和 ChatBI

知识本体设计

Bigdata Wiki OS 的图谱节点不只是一篇篇文章,而是不同类型的知识对象。

节点类型用途示例
Concept基础概念CDCOLAPMetadata Management
Technology技术组件Apache FlinkKafkaClickHouse
Architecture架构模式Lambda ArchitectureLakehouse
Capability组织能力数据标准、数据质量、数据资产运营
Process工作流程数据需求、模型评审、上线发布
Artifact交付物数据架构方案、指标字典、数据质量报告
Case项目案例电商实时数仓、用户画像平台
Question面试/评审问题如何治理指标口径不一致?
Decision架构决策为什么选择 Paimon 而不是 Hudi?
AgentAI 自动化能力SQL Review Agent、Data Catalog Agent

关系类型

建议统一使用显式关系,减少“只有链接但不知道为什么链接”的问题。

关系含义示例
is-a类型归属Flink is-a Streaming Engine
part-of组成关系元数据管理 part-of 数据架构
depends-on依赖关系Text2SQL depends-on 语义层
produces产出关系数据建模 produces 维度模型
governs治理关系数据标准 governs 指标口径
measures度量关系SLA measures Pipeline 稳定性
implements实现关系Paimon implements 流式湖仓
compares-with对比关系Doris compares-with StarRocks
used-in应用场景CDC used-in 实时数仓
asked-in面试场景Lakehouse asked-in 架构师面试

在 Obsidian 中可以通过正文小节承载:

## Links
 
- is-a:: [[Streaming Processing]]
- part-of:: [[Data Engineering]]
- depends-on:: [[Kafka]]
- used-in:: [[实时数仓]]
- asked-in:: [[数据架构师面试题]]

推荐目录结构

当前仓库可以保持 content/index/* 作为 Quartz 发布目录,同时在 Obsidian 中使用以下逻辑分层。

content/index/
  00-Map/
    Bigdata Wiki OS.md
    Bigdata Capability Radar.md
    Bigdata Learning Roadmap.md
  01-Data Strategy/
  02-Data Governance/
    DCMM.md
    DAMA-DMBOK.md
    Data Governance Operating Model.md
  03-Data Architecture/
    Data Architecture.md
    Lakehouse.md
    Data Mesh.md
    Architecture Decision Records/
  04-Data Modeling/
    Dimensional Modeling.md
    Indicator System.md
    Semantic Layer.md
  05-Data Engineering/
    Data Integration.md
    Batch Processing.md
    Streaming Processing.md
    Scheduling.md
  06-Data Platform/
    Metadata Platform.md
    Data Quality Platform.md
    Data Service Platform.md
  07-Analytics-BI/
  08-Data Product/
  09-DATA-AI-Agent/
    Text2SQL.md
    Data Agent Architecture.md
    Agent Governance.md
  10-Career/
    Interview/
    Talks/
    Case Portfolio/
  90-Sources/
    Standards/
    Books/
    Papers/
    Vendor Docs/
  99-Templates/

核心 MOC 设计

MOC(Map of Content)是 Obsidian 中最重要的导航层。建议至少维护 8 张核心地图:

  1. MOC-大数据全栈工程师能力地图
  2. MOC-数据架构师能力地图
  3. MOC-DCMM-DAMA 数据治理地图
  4. MOC-DATA+AI Agent 地图
  5. MOC-湖仓一体与实时数仓地图
  6. MOC-指标体系与语义层地图
  7. MOC-面试与演讲资产地图
  8. MOC-项目案例与职业资产地图

每张 MOC 固定包含:

## Scope
这张地图解决什么问题。
 
## Core Concepts
核心概念入口。
 
## Architecture
架构图、分层图、数据流图。
 
## Practices
项目实践、落地手册、踩坑复盘。
 
## Questions
面试题、评审题、演讲题。
 
## Outputs
可复用方案、PPT、Checklist、Demo。

笔记模板

概念卡模板

---
type: concept
title:
aliases:
tags:
dcmm_domain:
dama_area:
status: seed
---
 
## Definition
 
## Why It Matters
 
## Mental Model
 
## Architecture / Flow
 
## Commercial Practice
 
## Common Pitfalls
 
## Interview Answer
 
## Links
 
- part-of::
- depends-on::
- used-in::
- compares-with::

架构模式模板

---
type: architecture
title:
aliases:
tags:
dcmm_domain: 数据架构
dama_area:
status: evergreen
---
 
## Context
 
## Problem
 
## Forces
 
## Solution
 
## Reference Architecture
 
```mermaid
flowchart LR
  A["Source"] --> B["Ingestion"] --> C["Storage"] --> D["Compute"] --> E["Serving"]
```
 
## Trade-offs
 
## Vendor / OSS Mapping
 
## Governance Checkpoints
 
## AI Enablement
 
## Interview / Talk Version

项目案例模板

---
type: case
title:
industry:
scenario:
role:
tags:
business_metric:
tech_stack:
---
 
## Business Background
 
## Data Problems
 
## Architecture
 
## Modeling
 
## Governance
 
## AI / Automation
 
## Results
 
## Lessons Learned
 
## Reusable Assets

DATA+AI Agent 能力规划

AI Agent 在这个知识库里有两类身份:一类是维护 Wiki 的知识工程 Agent,另一类是面向数据工作的业务 Agent。

知识工程 Agent

Agent输入输出适用场景
Ingest Agent文章、文档、会议纪要、AI 对话原始资料摘要、候选笔记快速入库
Ontology Agent新笔记类型、标签、DCMM/DAMA 映射结构化归档
Link Agent新笔记 + 全库索引双链建议、孤岛笔记提示图谱维护
Diagram Agent架构描述Mermaid / Excalidraw 草图演讲、方案
Interview Agent概念和案例STAR 回答、追问清单面试准备
Talk AgentMOC 和案例课程大纲、讲稿、PPT 结构演讲教程
Review Agent笔记准确性、过期风险、缺失链接质量审查

数据业务 Agent

Agent能力依赖知识
Text2SQL Agent自然语言生成 SQL指标口径、语义层、权限
Data Quality Agent自动生成质量规则和异常解释数据标准、质量维度、血缘
Data Catalog Agent自动补全表描述、字段解释、血缘关系元数据、业务术语
Data Modeling Agent辅助维度建模、ER 建模、指标建模业务过程、事实维度、范式
DataOps Agent任务失败诊断、SLA 风险分析调度、日志、依赖、历史告警
BI Insight Agent自动解读指标波动指标体系、业务事件、归因方法
Governance Agent合规检查、权限建议、数据分级分类安全策略、制度、审计

Obsidian 技能配置建议

能力推荐用法
双链每篇笔记至少有 3 条显式链接:上位概念、实践场景、面试/交付物
Graph Viewtypedcmm_domaindama_area 分组观察知识密度
Canvas设计架构图、学习路线图、演讲结构
Excalidraw画数据流图、平台架构、组织治理模型
Dataview汇总待完善笔记、面试题、项目案例、成熟度证据
Templater快速生成概念卡、架构卡、案例卡
Mermaid版本可控的架构图、流程图、实体关系图
Tags只做粗粒度入口,核心关系靠双链和 YAML 字段

数据架构师知识图谱主干

mindmap
  root((Bigdata Wiki OS))
    Strategy
      Data Strategy
      Data Asset
      Business Value
      CDO/CDAO
    Governance
      DCMM
      DAMA
      Data Standard
      Data Quality
      Data Security
    Architecture
      Data Warehouse
      Data Lake
      Lakehouse
      Data Mesh
      Real-time Warehouse
    Engineering
      CDC
      Kafka
      Spark
      Flink
      Scheduling
    Modeling
      ER Model
      Dimensional Modeling
      Indicator System
      Semantic Layer
    Analytics
      BI
      Metrics
      Attribution
      Data Product
    AI
      RAG
      Text2SQL
      Agent
      LLMOps
      Governance as Code
    Career
      Interview
      Talk
      Case Portfolio
      English

典型落地场景

工作交付

CaseArchitecture 笔记生成方案:

业务背景 -> 数据问题 -> 架构方案 -> 技术选型 -> 治理要求 -> 风险与成本 -> 里程碑

面试准备

ConceptCaseQuestion 三类笔记组织回答:

定义 -> 业务价值 -> 架构落地 -> 项目案例 -> 指标结果 -> 风险权衡 -> 追问准备

演讲教程

从 MOC 生成课程:

为什么重要 -> 核心模型 -> 典型架构 -> 落地案例 -> 常见误区 -> Demo/Checklist

AI Agent 上下文

从结构化笔记生成 Agent Prompt:

角色边界 -> 可用数据 -> 指标口径 -> 质量规则 -> 权限策略 -> 输出格式 -> 审计要求

维护流程

sequenceDiagram
  participant U as User
  participant A as AI Agent
  participant W as Obsidian Wiki
  participant Q as Quartz Site

  U->>A: 提供资料/对话/项目问题
  A->>A: 摘要、分类、抽取概念
  A->>W: 生成或更新 Markdown 笔记
  A->>W: 推荐双链、标签、DCMM/DAMA 映射
  U->>W: 人工校对关键判断
  W->>Q: 发布到个人网站
  U->>A: 基于 Wiki 生成方案/面试/演讲

质量标准

每篇核心笔记达到以下条件后,才算从 seed 进入 evergreen

  • 有清晰定义和边界。
  • 有至少一个架构图、流程图或模型图。
  • 有商业落地场景。
  • 有 DCMM 或 DAMA 映射。
  • 有面试回答版本。
  • 有相关工具、产品或开源实现。
  • 有至少 3 个双链关系。
  • 有来源或个人项目证据。
  • 有风险、误区和取舍。

建设路线图

Phase 1:知识骨架

  • 建立 12 个顶层知识域和 8 张 MOC。
  • 把已有笔记重新映射到 DCMM、DAMA、技术栈、职业资产四类视角。
  • 建立概念卡、架构卡、案例卡、面试卡模板。

Phase 2:核心能力图谱

  • 完成数据架构、数据治理、数据建模、数据工程、DATA+AI Agent 五条主线。
  • 每条主线至少沉淀 20 篇 evergreen 笔记。
  • 建立数据架构师面试题库和项目案例库。

Phase 3:交付物自动化

  • 从 MOC 自动生成工作方案大纲。
  • 从 Case 自动生成 STAR 面试回答。
  • 从 Architecture 自动生成 Mermaid 架构图和 PPT 结构。
  • 从 Concept 自动生成 3 分钟、10 分钟、30 分钟讲解版本。

Phase 4:Agent 化

  • 建立 Knowledge Compile Agent,把原始资料编译为 Wiki。
  • 建立 Link Review Agent,定期发现孤岛笔记和重复概念。
  • 建立 Interview Agent,基于个人项目案例生成追问。
  • 建立 Data Architect Agent,基于业务场景输出架构评审清单。

首批建设清单

优先补齐这些笔记,它们会成为图谱骨架:

References