Flow-Batch Architecture

概述

核心思想： 使用统一计算引擎处理流数据和批数据，并通过 Lakehouse 实现统一存储

流批一体架构（Flow-Batch Architecture）是现代大数据平台中的一种核心架构模式，其目标是通过统一的计算引擎、统一的数据模型以及统一的数据存储体系，同时处理实时数据（Streaming）和离线数据（Batch）

在该架构中：

通过统一处理模型，流批一体架构解决了传统架构中实时计算与离线计算割裂的问题。

目前主流的流批一体计算引擎包括：

在早期的大数据平台中，企业通常采用 Lambda Architecture 架构

其核心结构包含三个层：

典型技术栈：

这种架构存在明显问题：

Batch = Bounded Stream

数据源 → 统一计算引擎 → 统一存储 → 查询服务

在该模式下：

业务系统
   │
   ▼
Kafka
   │
   ▼
Flink / Spark
   │
   ▼
Iceberg / Hudi 数据湖
   │
   ▼
OLAP 查询引擎
   │
   ▼
BI / Dashboard

查询层通常使用 Trino 用于实现，实时查询、OLAP 分析、BI 报表