Hadoop 是一个分布式系统基础架构，其性能和功能高度依赖于配置文件的设置

Bol5261

已于 2025-04-03 10:56:27 修改

阅读量205

点赞数 1

分类专栏： Hbase(Google Bigtable) Hadoop(HDFS MapReduce) 文章标签： hbase

于 2020-04-28 22:38:59 首次发布

本文链接：https://blog.csdn.net/blog_programb/article/details/105826591

版权

Hadoop 是一个分布式系统基础架构，其性能和功能高度依赖于配置文件的设置。以下是 Hadoop 中一些重要的配置项及其作用，结合了多个来源的信息进行整理和总结：

1. 核心配置文件

Hadoop 的核心配置文件通常包括 core-site.xml、hdfs-site.xml 和 mapred-site.xml。这些文件采用 XML 格式，定义了 Hadoop 集群的行为和性能参数。

1.1 `core-site.xml`

hadoop.tmp.dir：Hadoop 临时文件的存储路径，默认值为 /tmp/hadoop-${user.name}。这是其他临时目录的基础路径。
io.native.lib.available：是否使用本地 Hadoop 库（如果存在），默认值为 true。
hadoop.http.filter.initializers：用于初始化 HTTP 过滤器的类列表，默认值为 org.apache.hadoop.http.lib.StaticUserWebFilter。

1.2 `hdfs-site.xml`

dfs.name.dir：NameNode 的元数据存储路径，默认值为 ${hadoop.tmp.dir}/dfs/name。
dfs.data.dir：DataNode 的数据存储路径，默认值为 ${hadoop.tmp.dir}/dfs/data。
dfs.replication：HDFS 文件的副本数，默认值为 3。

1.3 `mapred-site.xml`

mapreduce.framework.name：指定 MapReduce 框架的运行模式，可以是 local（本地模式）或 yarn（YARN 模式）。
mapreduce.task.io.sort.factor：合并文件时使用的流数量，默认值为 10。

2. 内存与 CPU 配置

为了优化 Hadoop 的性能，需要合理配置内存和 CPU 资源。

2.1 内存分配

mapreduce.map.memory.mb：每个 Map 任务的内存分配量。
mapreduce.reduce.memory.mb：每个 Reduce 任务的内存分配量。
yarn.scheduler.maximum-allocation-mb：YARN 调度器允许的最大内存分配量。

2.2 CPU 分配

yarn.nodemanager.resource.cpu-vcores：每个节点管理器的 CPU 核心数。
mapreduce.map.cpu.vcores：每个 Map 任务的 CPU 核心数。
mapreduce.reduce.cpu.vcores：每个 Reduce 任务的 CPU 核心数。

3. HDFS 配置

HDFS 是 Hadoop 的分布式文件系统，其配置对数据存储和访问性能至关重要。

3.1 块大小

dfs.blocksize：HDFS 文件块的大小，默认值为 128 MB。较大的块大小适合处理大文件，而较小的块大小适合处理小文件。

3.2 副本策略

dfs.replication：HDFS 文件的副本数，默认值为 3。增加副本数可以提高数据的容错性，但会占用更多存储空间。

4. YARN 配置

YARN 是 Hadoop 的资源管理系统，负责集群资源的分配和调度。

4.1 资源调度

yarn.scheduler.capacity.root.queues：定义 YARN 调度器的队列结构。
yarn.scheduler.capacity.<queue-path>.capacity：指定队列的资源容量。

4.2 容器配置

yarn.nodemanager.resource.memory-mb：每个节点管理器的可用内存总量。
yarn.nodemanager.resource.cpu-vcores：每个节点管理器的可用 CPU 核心数。

5. 性能优化配置

为了提升 Hadoop 应用的性能，需要根据具体场景调整以下配置：

5.1 JVM 调优

mapreduce.map.java.opts：Map 任务的 JVM 参数。
mapreduce.reduce.java.opts：Reduce 任务的 JVM 参数。

5.2 并行度控制

mapreduce.job.reduces：Reduce 任务的数量，默认值为 1。增加 Reduce 任务的数量可以提高并行度。

6. 总结

Hadoop 的配置项繁多，涵盖了存储、计算、资源管理等多个方面。合理配置这些参数可以显著提升 Hadoop 集群的性能和稳定性。建议根据实际应用场景和硬件资源，逐步调整和优化配置参数。如果需要更详细的配置信息，可以参考 Hadoop 官方文档或上述来源。

在 Hadoop 集群配置中，有几个重要的配置文件和参数需要特别注意：

核心配置文件：
- core-site.xml：包含核心配置，如 I/O 设置、文件系统的默认类型等。
- hdfs-site.xml：包含 HDFS 的配置，如副本策略、权限设置等。
- yarn-site.xml：包含 YARN 资源管理器和节点管理器的配置。
- mapred-site.xml：包含 MapReduce 作业的配置，如作业的默认资源需求等。
环境配置文件：
- hadoop-env.sh 和 yarn-env.sh：用于设置 Hadoop 守护进程的环境变量，如 JAVA_HOME 路径、日志目录和进程 ID 目录等。
特定于站点的配置：
- 这些配置文件位于 Hadoop 安装目录的 etc/hadoop 子目录中，用于覆盖默认配置，以适应特定站点的需求。
守护进程配置：
- 可以为 NameNode、DataNode、ResourceManager、NodeManager 等守护进程单独配置环境变量，如 HDFS_NAMENODE_OPTS、YARN_RESOURCEMANAGER_OPTS 等。
日志和进程 ID 文件目录：
- HADOOP_LOG_DIR：守护进程日志文件存储的目录。
- HADOOP_PID_DIR：守护进程 ID 文件存储的目录。
Java 堆大小：
- HADOOP_HEAPSIZE_MAX：Java 堆的最大内存大小。
安全配置：
- 如果启用了安全模式，还需要配置 Kerberos 认证相关的配置。

正确配置这些参数对于确保 Hadoop 集群的性能和稳定性至关重要。管理员应该根据集群的具体需求和环境来调整这些配置。
9. The Important Configurations

Below we list some important configurations. We’ve divided this section into required configuration and worth-a-look recommended configs.
9.1. Required Configurations

Review the os and hadoop sections.
9.1.1. Big Cluster Configurations

If you have a cluster with a lot of regions, it is possible that a Regionserver checks in briefly after the Master starts while all the remaining RegionServers lag behind. This first server to check in will be assigned all regions which is not optimal. To prevent the above scenario from happening, up the hbase.master.wait.on.regionservers.mintostart property from its default value of 1. See HBA