05-07 23:52 已编辑门头沟学院数据分析师发布于广东

关注

大厂 MapReduce 面试题集锦及参考答案（招行、银联、平安面经）

请详细介绍 MapReduce 的概念

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架，最初由 Google 提出，旨在简化分布式计算任务的开发。它的核心思想是将复杂的数据处理任务分解为两个主要阶段：Map 和 Reduce，通过并行化处理实现高效的数据操作。

核心目标是让开发者在无需关心底层分布式系统细节（如任务调度、容错、数据分布）的情况下，专注于业务逻辑。例如，在统计文本中单词出现次数的场景中，Map 阶段将文本拆解为键值对（单词作为键，计数为值），Reduce 阶段则汇总相同键的值，得到最终结果。

关键特征包括：

横向扩展：通过增加计算节点提升处理能力，适用于 PB 级数据。
容错机制：自动处理节点故障，重新分配失败任务。
数据本地化：尽量在存储数据的节点上执行计算，减少网络传输开销。

MapReduce 通常与分布式文件系统（如 HDFS）配合使用，形成完整的大数据处理生态。例如，Hadoop 的实现使其成为早期大数据领域的基石技术。

阐述 MapReduce 的优点和缺点

优点：

高扩展性：通过添加廉价硬件节点即可扩展集群，适合处理海量数据。
简化编程：开发者只需实现 Map 和 Reduce 函数，无需管理分布式系统的复杂性。
自动容错：任务失败时自动重启，中间数据持久化存储保障可靠性。
批处理优化：适合离线数据处理场景，如日志分析、ETL 流程。

缺点：

高延迟：不适合实时或交互式查询，任务启动和中间数据交换耗时较长。
磁盘 I/O 瓶颈：Map 和 Reduce 阶段频繁读写磁盘，影响性能（后续框架如 Spark 改用内存计算优化此问题）。
灵活性不足：复杂的多阶段任务（如迭代计算）需要串联多个 MapReduce 作业，代码冗余度高。
资源利用率低：任务调度和启动开销大，短任务场景下效率较低。

描述 MapReduce 的架构组成及各部分的作用

MapReduce 架构包含以下核心组件：

Client	提交作业到集群，指定输入路径、输出路径及 Map/Reduce 函数实现。
JobTracker	资源管理和任务调度的主节点，分配任务到 TaskTracker，监控任务状态并处理故障。
TaskTracker	工作节点上的守护进程，执行具体的 Map 或 Reduce 任务，定期向 JobTracker 汇报心跳。
HDFS	存储输入数据和输出结果，确保数据分块分布在不同节点，支持数据本地化计算。

流程交互：

Client 将作业配置和代码打包提交给 JobTracker。
JobTracker 根据输入数据分片（Split）数量决定创建多少个 Map 任务，并分配到空闲的 TaskTracker。
TaskTracker 启动子进程执行任务，Map 结果写入本地磁盘，Reduce 任务通过网络拉取数据并聚合。

说明 MapReduce 的工作原理，包括数据处理的整体流程

MapReduce 的数据处理流程分为五个阶段：

输入分片（Input Splitting）输入数据被分割为固定大小的块（如 128MB），每个分片由一个 Map 任务处理。分片策略影响负载均衡，需避免数据倾斜。
Map 阶段每个 Map 任务读取分片数据，逐行处理并生成中间键值对。例如，统计词频时，Map 函数输出 <word, 1>。结果先写入内存缓冲区，溢出时排序并分区（按 Reduce 任务数量）后写入磁盘。
Shuffle 和 Sort所有 Map 任务完成后，Reduce 任务从各个节点拉取属于自己分区的数据。数据在 Reduce 端按键排序，便于聚合。此阶段网络传输和磁盘 I/O 密集，常成为性能瓶颈。
Reduce 阶段排序后的数据按键分组，Reduce 函数遍历每个键的值列表进行汇总（如累加计数）。结果最终写入 HDFS，每个 Reduce 任务生成一个输出文件。
输出结果存储在分布式文件系统中，格式可由用户自定义（如文本、序列文件）。

在 MapReduce 的各个阶段中，哪个阶段最耗费时间？请说明原因

Shuffle 和 Sort 阶段通常是耗时最长的环节，主要原因包括：

跨节点数据传输Map 任务的输出需通过网络传输到 Reduce 节点，数据量庞大时网络带宽成为瓶颈。例如，若 Map 生成 1TB 中间数据，需在集群内全量传输。
磁盘 I/O 压力Map 阶段将中间结果写入本地磁盘，Reduce 任务拉取数据时再次读写，高频的磁盘操作延长处理时间。
排序开销Reduce 节点需对所有接收到的数据按键排序，大规模数据下外部排序算法（多路归并）消耗大量 CPU 和内存资源。

优化手段：

Combiner 函数：在 Map 端本地预聚合数据，减少传输量。
压缩中间数据：使用 Snappy 或 LZO 压缩算法降低网络和磁盘负载。
调整分区策略：避免数据倾斜，确保 Reduce 任务负载均衡。

尽管其他阶段（如 Map 执行）也可能因计算复杂度高而耗时，但 Shuffle 和 Sort 的资源竞争问题在多数场景下更为显著。

MapReduce 中的 Combine 组件的功能是什么？它能带来哪些好处？

Combine 是 MapReduce 中一个可选的本地聚合组件，通常运行在 Map 任务结束后、数据发送到 Reduce 节点之前。它的核心功能是在 Map 端对中间数据进行预聚合，以减少网络传输的数据量和 Reduce 阶段的负载。

功能细节：

本地聚合：对相同键（Key）的多个值（Value）进行合并。例如，在词频统计中，若某个 Map 任务多次输出 <"apple", 1>，Combine 会将其合并为 <"apple", 3>。
数据压缩：通过减少键值对数量，降低后续 Shuffle 阶段的网络传输压力。

核心好处：

减少网络带宽消耗：中间数据在 Map 节点本地聚合后，跨节点传输的数据量显著下降。例如，若原始数据包含 1 亿条 <word, 1>，Combine 可能将其压缩为 10 万条 <word, N>。
降低磁盘和 CPU 开销：Reduce 阶段需要处理的数据量减少，排序和聚合的计算成本随之降低。
提升整体性能：尤其在数据倾斜场景（如某些键出现频率极高）下，Combine 能避免单个 Reduce 任务成为瓶颈。

限制条件：Combine 的操作必须是幂等且可结合的。例如，求和、求最大值等操作适用，但求平均值则需谨慎（需记录总和与计数，在 Reduce 阶段最终计算）。

解释 MapReduce 中设置环形缓冲区的必要性

环形缓冲区（Circular Buffer）是 Map 任务中用于临时存储输出键值对的内存区域，其设计目标是平衡内存使用与磁盘 I/O 效率。

必要性分析：

减少磁盘写入频率：Map 任务逐行处理数据时，若每条结果直接写入磁盘，频繁的 I/O 操作会导致性能骤降。环形缓冲区通过批量写入（默认阈值 80% 满时触发）减少磁盘访问次数。
内存管理优化：环形结构允许覆盖旧数据，避免内存碎片。当缓冲区写满时，后台线程将数据排序并**溢写（Spill）**到磁盘，同时 Map 任务继续向剩余空间写入新数据。
排序预处理：溢写前，数据会按键排序并分区（Partition），为后续 Shuffle 阶段做好准备。

参数影响：

缓冲区大小（如默认 100MB）直接影响溢写频率。较大的缓冲区减少溢写次数，但占用更多内存。
溢写阈值（如 80%）需权衡内存利用率与任务稳定性——阈值过高可能导致写入阻塞。

说明 MapReduce 必须有 Shuffle 过程的原因

Shuffle 是 MapReduce 中连接 Map 和 Reduce 阶段的核心环节，其存在必要性源于分布式计算的底层逻辑：

数据分发需求：Map 任务的输出分散在多个节点，而 Reduce 任务需按键分组处理数据。例如，所有键为 "error" 的日志需发送到同一个 Reduce 任务。
数据排序与合并：Reduce 阶段要求输入数据按键有序，以便高效聚合。Shuffle 过程在传输数据的同时完成排序。
负载均衡：通过分区（Partitioning）将数据均匀分配到不同 Reduce 任务，避免单个任务过载。

不可替代性：

若跳过 Shuffle，Reduce 任务无法获取完整的关联数据集，导致计算结果错误。例如，统计全局单词频率时，若 "apple" 的键值对分散在多个未聚合的 Reduce 任务中，结果将不准确。

描述 MapReduce 的 Shuffle 过程，并阐述其优化方法

Shuffle 过程分为 Map 端和 Reduce 端两个阶段：

Map 端流程：

分区（Partitioning）：根据键的哈希值将数据分配到不同 Reduce 任务对应的分区。
排序（Sorting）：每个分区内的数据按键排序。
溢写（Spilling）：排序后的数据写入磁盘，生成多个溢出文件。
合并（Merging）：所有溢出文件归并为一个已分区且排序的大文件。

Reduce 端流程：

数据拉取（Fetch）：从各个 Map 节点下载属于自己分区的数据。
归并排序（Merge Sort）：将来自不同 Map 任务的数据合并为全局有序文件。

优化方法：

减少数据量	启用 Combine 预聚合、使用压缩算法（如 Snappy）压缩中间数据。
降低磁盘 I/O	增大环形缓冲区大小、调整溢写阈值。
网络传输优化	启用 HTTP 压缩、调整并行拉取线程数。
避免数据倾斜	自定义分区策略，确保数据均匀分布（例如对热点键添加随机后缀再聚合）。

在 MapReduce 中，Reduce 如何获取 Map 的结果集？它是如何知道从哪里拉取数据的？

Reduce 任务通过**主动拉取（Pull）**机制获取 Map 结果，具体流程如下：

元数据管理：Map 任务完成后，会向 JobTracker（或 YARN 的 ResourceManager）注册输出位置，包括数据所在节点、分区信息等。这些元数据存储在中心化服务（如 Hadoop 的 JobTracker）中，供 Reduce 任务查询。
数据拉取流程：Reduce 任务启动后，向 JobTracker 请求其负责的分区对应的 Map 输出位置。根据元数据，Reduce 任务通过 HTTP 请求连接到各个 Map 节点，下载属于自己分区的数据文件。
容错机制：若某个 Map 节点故障，JobTracker 会重新调度该 Map 任务到其他节点，Reduce 任务从新节点拉取数据。数据拉取过程中，Reduce 任务会验证文件的校验和，确保数据完整性。

关键技术点：

分区映射表：JobTracker 维护了 Map 任务输出与 Reduce 任务的映射关系，例如分区 0 对应 Reduce 任务 1。
数据本地化：Reduce 会优先从同一机架的节点拉取数据，减少跨网络流量。
并行拉取：Reduce 任务同时启动多个线程从不同 Map 节点下载数据，提升吞吐量。

示例场景：假设集群有 100 个 Map 任务和 10 个 Reduce 任务，每个 Reduce 任务需从 100 个 Map 节点拉取属于自己的 10 个分区数据，最终合并处理。

请描述 Reduce 阶段的具体操作，包括是否进行分组以及分组的方式

Reduce 阶段是 MapReduce 流程中数据聚合的核心环节，负责将来自多个 Map 任务的中间结果合并为最终输出。这一阶段的操作不仅涉及数据的分组，还包含排序、合并和执行用户定义的 Reduce 函数。

操作流程分解：

数据拉取与归并Reduce 任务从各个 Map 节点拉取属于自己分区的数据（通过 Shuffle 过程），并将这些数据临时存储在本地磁盘。由于数据可能来自多个 Map 任务，Reduce 会通过多路归并排序将所有输入文件合并为一个全局有序的大文件。
分组（Grouping）分组是 Reduce 阶段的核心操作，目的是将相同键（Key）的所有值（Value）聚合在一起，形成 <Key, List<Value>> 的结构。例如，统计词频时，所有键为 "apple" 的值（如 1, 1, 1）会被合并为 <"apple", [1,1,1]>。分组方式：默认基于键的哈希值进行分组，但用户可通过自定义 Partitioner 或 Comparator 实现按范围、规则或业务逻辑的分组。
执行 Reduce 函数每组键值对会调用一次用户编写的 Reduce 函数，对值列表进行汇总计算（如累加、求平均或复杂业务逻辑）。结果最终写入分布式文件系统（如 HDFS），每个 Reduce 任务生成一个独立的输出文件。

分组的技术细节：

排序前置：由于数据在 Shuffle 阶段已按键排序，分组操作只需顺序扫描并合并连续相同键的数据，时间复杂度接近 O(n)。
内存优化：若值列表过大，Reduce 可能分批次加载数据到内存处理，避免内存溢出（OOM）。

MapReduce Shuffle 过程中使用的排序算法是什么

Shuffle 过程中使用的排序算法根据场景不同分为两种：

Map 端的快速排序（Quick Sort）在 Map 任务将数据写入磁盘前，内存中的键值对会按键进行快速排序，以支持后续分区和溢写操作。选择原因：快速排序在内存中对随机数据具有较高的平均性能（时间复杂度 O(n log n)）。
Reduce 端的归并排序（Merge Sort）Reduce 任务从多个 Map 节点拉取数据后，需将多个有序文件合并为全局有序文件，此时采用多路归并排序。选择原因：归并排序适合外部排序（数据量大于内存容量），且稳定性高，不会打乱已部分有序的数据。

特殊场景处理：

若用户定义了自定义排序规则（如按数值降序），排序算法会依据该规则调整比较逻辑，但底层仍基于快速排序或归并排序实现。

解释在 MapReduce 的 Shuffle 过程中进行排序的目的

排序在 Shuffle 过程中扮演了关键角色，其目的主要包括：

支持 Reduce 阶段的聚合操作Reduce 任务需要将相同键的值集中处理，排序确保所有相同键的数据连续存储，只需一次线性扫描即可完成分组。例如，未排序的数据可能导致键 "apple" 分散在文件不同位置，迫使 Reduce 多次跳转读取。
提升数据压缩效率有序数据通常具有更高的局部性和重复性，便于使用压缩算法（如 Run-Length Encoding）减少存储和传输开销。
优化磁盘和网络性能排序后的数据在磁盘上以连续块存储，减少随机读取的寻道时间。网络传输中，有序数据可批量发送，减少协议头开销。
满足业务逻辑需求某些场景要求结果按特定顺序输出（如按时间戳排序的日志），Shuffle 阶段的排序为此类需求奠定了基础。

代价与权衡：

排序操作消耗大量 CPU 和内存资源，可能成为性能瓶颈。因此，在不需要排序的场景（如仅需哈希分组），用户可通过配置禁用排序以提升效率。

详细说明 map 阶段的数据是如何传递到 reduce 阶段的

数据从 Map 到 Reduce 的传递是一个跨节点、多步骤的流程，具体过程如下：

Map 端处理分区（Partitioning）：Map 任务根据 Reduce 任务数量（如 10 个）将输出数据分为多个分区，每个分区对应一个 Reduce 任务。默认使用哈希函数 hash(key) mod R 计算分区号。排序与溢写：每个分区的数据按键排序后写入本地磁盘，生成多个溢出文件（Spill File）。
Shuffle 传输元数据上报：Map 任务完成后，向 JobTracker 报告输出文件的位置和分区信息。数据拉取：Reduce 任务启动后，通过 HTTP 请求从各个 Map 节点拉取属于自己分区的数据。
Reduce 端归并拉取的数据在 Reduce 节点缓存到磁盘，合并为一个全局有序文件。归并过程中可能再次排序（若 Map 端排序规则与 Reduce 端不一致）。

关键优化技术：

数据压缩：在 Map 端使用 Snappy 等算法压缩数据，减少传输量。
并行拉取：Reduce 任务同时从多个 Map 节点下载数据，最大化利用网络带宽。
本地性优先：调度器优先将 Reduce 任务分配到含有部分数据的节点，减少跨机架传输。

介绍你所了解的 MapReduce 的 shuffle 机制有哪些

Shuffle 机制的实现因框架而异，以下为几种典型方案：

Hadoop MapReduce	基于磁盘的 Shuffle，数据在 Map 端排序后写入磁盘，Reduce 通过多轮归并处理数据。	离线批处理，数据量极大的场景。
Spark Shuffle	可选择基于磁盘或内存的 Shuffle，支持哈希（Hash）和排序（Sort）两种数据分配策略。	迭代计算、实时性要求较高的场景。
Tez Shuffle	采用动态管道（Pipeline）传输，减少中间落盘次数，通过事件驱动模型提升效率。	DAG 复杂任务，需多次数据交换的场景。
Flink Shuffle	基于网络缓冲区的流水线传输，支持阻塞和非阻塞模式，允许在数据传输过程中并行处理。	流处理和批处理混合场景。

优化技术对比：

Hadoop 的 Shuffle 稳定性高，但磁盘 I/O 开销大。
Spark 的 Shuffle 可通过 Tungsten 优化内存管理，减少序列化开销。
Flink 的 Shuffle 利用流水线技术，适合低延迟场景，但对网络稳定性要求较高。

演进趋势：

现代框架（如 Spark 和 Flink）逐渐采用随机 Shuffle（Hash-based） 替代全排序，以牺牲部分有序性换取更高的吞吐量，同时引入数据倾斜处理技术（如 Salting）应对分布不均问题。

请阐述 MapReduce 的数据处理过程，包括从输入数据到输出结果的完整流程

MapReduce 的数据处理流程是一个分阶段、高度并行化的过程，其核心目标是将大规模数据分解为可管理的任务单元，最终合并为全局结果。以下是关键步骤的详细展开：

1. 输入数据分片（Input Splitting）

输入数据（如 HDFS 中的文件）被划分为多个逻辑分片（Split），每个分片通常对应一个 HDFS 数据块（默认 128MB）。分片不实际切割数据，而是记录数据块的偏移量和长度，供 Map 任务读取。例如，一个 1GB 的文件会被分为 8 个分片，每个分片由一个 Map 任务处理。

2. Map 阶段

数据读取：Map 任务通过 InputFormat 类（如 TextInputFormat）读取分片数据，解析为键值对 <K1, V1>。例如，文本文件的一行可能被处理为 <行号, 文本内容>。
业务逻辑处理：用户编写的 Map 函数将 <K1, V1> 转换为中间键值对 <K2, V2>。例如，在词频统计中，输出 <单词, 1>。
本地聚合与分区：通过 Combiner 对相同键的值进行预聚合，再按分区规则（如哈希取模）将数据划分为多个分区，每个分区对应一个 Reduce 任务。

3. Shuffle 与 Sort 阶段

Map 端排序：每个分区的数据按键排序后写入本地磁盘，生成多个溢出文件（Spill File）。
数据拉取：Reduce 任务从所有 Map 节点拉取属于自己分区的数据。
归并排序：Reduce 端将来自不同 Map 任务的数据合并为全局有序文件，确保相同键的数据连续存储。

4. Reduce 阶段

分组与聚合：Reduce 任务按键分组数据，执行用户定义的 Reduce 函数生成最终结果 <K3, V3>。例如，将 <"apple", [1,1,1]> 合并为 <"apple", 3>。
结果写入：输出通过 OutputFormat 类（如 TextOutputFormat）写入 HDFS，每个 Reduce 任务生成一个独立文件。

关键优化点：

数据本地化：调度器优先将 Map 任务分配到存储数据的节点，减少网络传输。
容错机制：若某个任务失败，JobTracker 会重新调度到其他节点执行。

解释 mapjoin 的实现原理，并举例说明其适用的应用场景

MapJoin（也称 Broadcast Join）是一种通过将小表加载到内存来加速关联操作的优化技术，适用于大表与小表关联的场景。

实现原理：

小表广播：在 Map 阶段，将小表的数据全量加载到每个 Map 任务的内存中，通常存储为哈希表（Hash Table）或字典结构。
关联处理：在处理大表的每条记录时，直接通过内存中的小表数据完成关联，无需 Shuffle 过程。例如，用户表（小）与订单表（大）通过用户 ID 关联时，Map 任务读取订单记录后，立即从内存中的用户表查找匹配信息。
结果输出：关联后的数据直接作为 Map 的输出，跳过了 Reduce 阶段。

适用场景：

小表与大表关联：小表数据量需足够小（通常不超过几百 MB），能完全放入内存。例如：维度表与事实表关联（如商品信息表关联销售记录）。用户配置表关联日志数据。
低延迟查询：适用于 Hive 等场景下需要快速响应的交互式查询。

限制条件：

小表数据必须能完全放入内存，否则会导致 OOM（内存溢出）。
仅支持等值关联（Equi-Join），不支持非等值或复杂条件关联。

描述 reducejoin 的执行原理

ReduceJoin 是 MapReduce 中处理两个或多个大表关联的标准方法，其核心思想是通过 Shuffle 过程将关联键相同的数据汇集到同一 Reduce 任务中完成关联。

执行流程：

Map 阶段标记数据来源：每个 Map 任务读取输入表的数据，并为每条记录添加来源标识。例如，表 A 的记录标记为 (A, 数据)，表 B 的记录标记为 (B, 数据)。输出键为关联键（如订单 ID），值为数据与来源标识的组合。例如，<OrderID, (A, 产品信息)> 或 <OrderID, (B, 客户信息)>。
Shuffle 阶段按关联键分组：所有相同 OrderID 的记录（无论来自哪个表）被分配到同一个 Reduce 任务。
Reduce 阶段关联操作：Reduce 任务接收到的数据按来源标识分为两组（如表 A 和表 B）。通过嵌套循环遍历两组数据，生成笛卡尔积结果。例如，每个表 A 的记录与所有表 B 的记录匹配，输出关联后的完整记录。

缺点与优化：

数据倾斜风险：若某个关联键对应的数据量极大（如热门商品），会导致 Reduce 任务负载不均。
性能开销：Shuffle 阶段需传输全量数据，网络和磁盘开销较高。优化手段包括过滤无效数据或提前压缩关联键。

说明 MapReduce 不能产生过多小文件的原因

MapReduce 对小文件（如几 MB 甚至 KB 级别的文件）的处理存在显著性能瓶颈，主要原因包括：

NameNode 内存压力：HDFS 中每个文件、目录或块的元数据（如位置、大小）约占用 150 字节内存。若存在数百万个小文件，NameNode 内存可能耗尽，导致集群不可用。
Map 任务启动开销：每个小文件会生成一个独立的 Map 任务。例如，10,000 个 1MB 的文件会启动 10,000 个 Map 任务，而任务调度和初始化的时间可能远超过数据处理本身。
磁盘与网络效率低下：Map 任务读取小文件时，磁盘寻道时间占比高，无法充分利用顺序读取的高吞吐特性。Shuffle 阶段可能传输大量小文件，增加网络协议头（如 TCP/IP）的开销。
资源浪费：每个 Map 任务默认占用一个 Container（包含固定内存和 CPU），大量小任务导致资源碎片化，集群利用率下降。

解决方案：

文件合并：使用 HAR（Hadoop Archive）或 Hive 的 CONCATENATE 命令将小文件合并为大文件。
输出优化：在 Reduce 阶段控制输出文件数量，例如通过设置 hive.merge 参数自动合并结果。

介绍 MapReduce 中分区的概念和作用

分区（Partitioning）是 MapReduce 中控制数据如何分配到 Reduce 任务的核心机制，决定了哪些键值对会被发送到哪个 Reduce 任务进行处理。

核心概念：

分区数量：通常等于 Reduce 任务的数量，由用户通过 job.setNumReduceTasks() 设置。
分区规则：默认使用哈希函数（hash(key) mod R）计算分区号，但支持自定义分区逻辑（如按日期范围或业务规则）。

核心作用：

负载均衡：通过均匀分布数据到不同 Reduce 任务，避免单个任务过载。例如，若数据倾斜严重（如某个键占比 90%），自定义分区可将该键分散到多个分区。
数据分组：确保相同键的数据进入同一 Reduce 任务，满足聚合操作的需求。例如，统计每个用户的访问次数时，同一用户的所有记录必须发送到同一任务。
灵活控制输出：通过自定义分区，可将特定数据写入指定文件。例如，按国家分区后，每个国家的数据独立存储。

自定义分区示例：

public class CustomPartitioner extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        String country = key.toString().split("-")[0]; // 假设键格式为"国家-用户ID"
        return (country.hashCode() & Integer.MAX_VALUE) % numPartitions;
    }
}

此代码将相同国家的数据分配到同一分区，适用于按国家汇总统计的场景。

优化注意事项：

避免分区数量过多（如设置 10,000 个 Reduce 任务），否则会产生大量小文件。
自定义分区需确保分布均匀，否则可能导致数据倾斜，反而降低性能。

分析 ReduceTask 数量和分区数量之间的关系

ReduceTask 数量与分区数量之间存在紧密的关联性，但两者并不总是严格相等。它们的核心关系可总结为：

默认情况下的强绑定：在 MapReduce 中，每个分区（Partition）对应一个 ReduceTask。例如，若设置 job.setNumReduceTasks(5)，则分区数量默认也为 5，数据通过哈希函数分配到这 5 个分区。例外情况：若用户自定义了 Partitioner 且逻辑导致分区号超过 ReduceTask 数量，框架会取模运算，可能导致数据分布不均甚至错误。
分区数决定 ReduceTask 的数据范围：每个 ReduceTask 必须处理至少一个分区，但一个分区只能由一个 ReduceTask 处理。例如，若分区数为 10 而 ReduceTask 数量设为 3，则部分 ReduceTask 会处理多个分区（如第 1 个 ReduceTask 处理分区 0-3，第 2 个处理 4-6，第 3 个处理 7-9）。若分区数小于 ReduceTask 数量，多余的 ReduceTask 会空跑，生成空文件。
数据倾斜的影响：若分区策略不合理（如某个键占比过高），即使 ReduceTask 数量足够，仍会导致负载不均。例如，日志数据中 90% 的请求来自同一个用户 IP，对应的 ReduceTask 将处理大部分数据。

最佳实践：

保持一致：通常将 ReduceTask 数量与分区数量设为相同值，确保一一对应。
动态调整：根据数据特征动态计算 ReduceTask 数量，例如通过采样预估键的分布，再设置合理的分区数。

MapReduce 中 Map 的分片大小是如何确定的

Map 分片（InputSplit）的大小由数据存储特性和用户配置参数共同决定，目标是平衡任务负载与数据处理效率。

核心影响因素：

HDFS 块大小：默认分片大小等于 HDFS 块大小（如 128MB）。例如，若文件大小为 300MB，HDFS 将其分为 3 个块（128MB+128MB+44MB），则生成 3 个分片。
配置参数：mapreduce.input.fileinputformat.split.minsize：分片的最小值（默认 1）。mapreduce.input.fileinputformat.split.maxsize：分片的最大值（默认 Long.MAX_VALUE）。实际分片大小计算公式为：例如，若设置 maxSize=64MB，则 128MB 的块会被拆分为两个 64MB 的分片。
文件格式与压缩：不可分割文件：如 GZIP 压缩文件，无法并行处理，整个文件作为一个分片。可分割文件：如 BZIP2 或 LZO（带索引），允许按块划分分片。

特殊场景处理：

小文件合并：若输入包含大量小文件，可通过 CombineFileInputFormat 合并多个小文件为一个分片，减少 Map 任务数量。

请描述 MapReduce 进行两表 join 操作的具体流程

两表 Join 的典型实现是 ReduceJoin，其流程分为三个阶段：

Map 阶段标记数据来源：每个 Map 任务读取表 A 或表 B 的数据，输出键为 Join Key（如订单 ID），值为数据记录并附加来源标识。例如：表 A 记录：<OrderID, (A, ProductInfo)>表 B 记录：<OrderID, (B, CustomerInfo)>
Shuffle 阶段按 Join Key 分组：所有相同 OrderID 的记录被分配到同一个 Reduce 任务。数据在 Reduce 端按键排序，确保相同键的记录连续存储。
Reduce 阶段执行关联操作：Reduce 任务接收到的数据按来源标识分为两组：表 A 和表 B。遍历两组数据生成笛卡尔积。例如：若某组数据为空，可选择内连接（过滤）或外连接（补空值）。

优化方法：

Bloom Filter 过滤：在 Map 阶段过滤不可能关联的记录，减少 Shuffle 数据量。
Secondary Sort：对关联键以外的字段排序，减少 Reduce 阶段的计算量。

请手写一段简单的 MapReduce 程序，实现对输入数据的某种处理功能（可自行设定处理逻辑）

以下是一个统计文本中单词首字母频率的示例：

Mapper 类：

public class InitialMapper extends Mapper<LongWritable, Text, Text, IntWritable> {  
    private Text initial = new Text();  
    private final static IntWritable ONE = new IntWritable(1);  

    @Override  
    public void map(LongWritable key, Text value, Context context)  
            throws IOException, InterruptedException {  
        String line = value.toString();  
        String[] words = line.split(" ");  
        for (String word : words) {  
            if (!word.isEmpty()) {  
                initial.set(word.substring(0, 1).toUpperCase()); // 取首字母并大写  
                context.write(initial, ONE);  
            }  
        }  
    }  
}

Reducer 类：

public class SumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {  
    private IntWritable result = new IntWritable();  

    @Override  
    public void reduce(Text key, Iterable<IntWritable> values, Context context)  
            throws IOException, InterruptedException {  
        int sum = 0;  
        for (IntWritable val : values) {  
            sum += val.get();  
        }  
        result.set(sum);  
        context.write(key, result);  
    }  
}

驱动类配置：

public class InitialDriver extends Configured implements Tool {  
    public static void main(String[] args) throws Exception {  
        int res = ToolRunner.run(new Configuration(), new InitialDriver(), args);  
        System.exit(res);  
    }  

    @Override  
    public int run(String[] args) throws Exception

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大数据从入门到精通-最全面试题文章被收录于专栏

17年+码农经历了很多次面试，多次作为面试官面试别人，多次大数据面试和面试别人，深知哪些面试题是会被经常问到。在多家企业从0到1开发过离线数仓实时数仓等多个大型项目，详细介绍项目架构等企业内部秘不外传的资料，介绍踩过的坑和开发干货，分享多个拿来即用的大数据ETL工具，让小白用户快速入门并精通，指导如何入职后快速上手。计划更新内容100篇以上，包括一些企业内部秘不外宣的干货，欢迎订阅！