MapReduce 是一种用于大规模数据处理的编程模型和计算框架，最初由 Google 提出-洪萨配资

MapReduce 是一种用于大规模数据处理的编程模型和计算框架，最初由 Google 提出，主要用于在分布式环境下并行处理海量数据。它将复杂的处理任务分解为两个核心阶段：Map（映射）和Reduce（归约）。

核心思想

Map 阶段：将输入数据分割成键值对（key-value pairs），并对每个数据块执行用户定义的 map 函数，生成中间结果。
Shuffle 与 Sort 阶段：系统自动将 Map 输出的中间结果按照 key 进行排序、分组，并分发到对应的 Reduce 节点。
Reduce 阶段：对相同 key 的中间结果进行聚合处理，输出最终结果。

工作流程示例（词频统计 WordCount）

# 伪代码实现# 输入: ("doc1", "hello world hello"), ("doc2", "world of big data")# Map 函数defmap(doc_id,text):forwordintext.split():emit(word,1)# Map 输出: ("hello",1), ("world",1), ("hello",1), ("world",1), ("of",1), ...# Shuffle & Sort 后:# ("hello", [1,1]), ("world", [1,1]), ("of", [1]), ...# Reduce 函数defreduce(word,counts):total=sum(counts)emit(word,total)# 最终输出: ("hello",2), ("world",2), ("of",1), ...

特点

容错性强：任务失败可自动重试。
高扩展性：可在数千台普通服务器上运行。
适合批处理：不适用于实时或交互式查询。
磁盘 I/O 较高：中间结果写入磁盘，影响性能。

典型应用场景

日志分析
网页索引构建
数据清洗与转换
大规模图计算（需迭代时效率较低）

Hadoop 是最著名的开源 MapReduce 实现，广泛应用于大数据生态系统中。

MapReduce 中的Shuffle 过程是连接 Map 阶段和 Reduce 阶段的核心机制，其主要目标是将所有 Map 任务输出的中间结果中，相同 key 的数据汇聚到同一个 Reduce 任务中进行处理。这个过程由框架自动完成，对开发者透明，但理解其工作原理对性能调优至关重要。

Shuffle 工作流程详解：

1.Map 输出阶段

每个 Map 任务在处理完输入分片后，生成一系列<key, value>对。
这些中间结果首先被写入内存缓冲区（环形缓冲区）。
当缓冲区达到阈值（如 80%满），会启动溢写（spill）操作。

2.分区（Partitioning）

在溢写前，数据会根据 Reduce 任务数量进行分区（Partitioning），通常使用哈希分区：
```
partition=hash(key)%num_reduce_tasks
```
每个分区对应一个 Reduce 任务，确保相同 key 落入同一分区。

3.排序与合并（Sorting & Merging）

溢写时，每个分区内的数据按 key排序。
可选地执行Combiner 函数（相当于本地 Reduce），减少网络传输量。
多次溢写产生多个有序的 spill 文件。

4.磁盘持久化

所有 spill 文件保存在本地磁盘，等待 Reduce 拉取。

5.Reduce 端拉取数据（Fetch）

Reduce 任务启动后，通过HTTP 协议向各个 Map 节点请求属于自己的分区数据。
这个过程称为Copy Phase或Fetch Phase。

6.归并排序（Merge）

Reduce 端接收到多个来自不同 Map 任务的有序文件。
将这些文件进行归并排序（merge sort），形成一个整体有序的输入流。

7.输入 Reduce 函数

最终合并后的数据传给用户定义的reduce()函数进行处理。

关键特性

特性	说明
自动完成	开发者无需手动实现，由 Hadoop 框架管理
网络密集型	大量数据通过网络传输，影响性能
磁盘 I/O 高	中间结果频繁写入磁盘
可配置	可自定义 Partitioner、Combiner、Sort Comparator 等