🏜️ XuFei Wiki

❯

❯

❯

❯

MapReduce

Jan 26, 2022

bigdata
datastore
hadoop
apache

MapReduce是一种分布式计算框架，可以用于大规模数据处理。它是由Google提出的一种计算模型，可以通过横向扩展来处理PB级别的数据。Hadoop是实现MapReduce的一种开源框架，它通过HDFS（Hadoop分布式文件系统）存储数据，并通过MapReduce处理数据。

MapReduce的处理流程包括两个步骤：Map和Reduce。Map步骤会将输入的数据进行处理，转换成键值对的形式；Reduce步骤会对Map处理后的键值对进行归并和汇总。MapReduce通过分布式处理大量数据，可以显著提高数据处理效率。

MapReduce的优点包括：

分布式计算：MapReduce的分布式计算模型可以在集群中多台计算机上同时处理数据，加速计算速度。
容错性：MapReduce可以处理节点失效的情况，保证数据不会丢失。
可伸缩性：MapReduce可以根据需要添加更多计算节点，以满足不断增长的数据处理需求。

MapReduce的缺点包括：

代码复杂：编写MapReduce程序需要一定的编程技巧，代码较为复杂。
低效性：MapReduce在处理小规模数据时效率较低，因为它需要启动很多进程来处理数据。
实时性差：MapReduce不适用于实时数据处理，因为数据处理需要多个步骤和较长的处理时间。

Graph View

Backlinks

Lambda Architecture
Apache Hive

Created with Quartz v4.3.1 © 2025

Tags
GitHub
xufei.site
Bento.me