大数据问题排查系列 - HDFS FileSystem API 的正确打开方式，你 GET 了吗？

最新推荐文章于 2025-01-05 16:17:53 发布

明哥的IT随笔

最新推荐文章于 2025-01-05 16:17:53 发布

阅读量528

点赞数 2

分类专栏：源码阅读问题排查文章标签： hadoop big data

本文链接：https://blog.csdn.net/MichaelLi916/article/details/119901101

版权

大数据问题排查系列 - HDFS FileSystem API 的正确打开方式，你 GET 了吗？

前言

大家好，我是明哥！

本片博文是“大数据问题排查系列”之一，我们首先会聊聊一个问题的现象原因和解决方法，然后给出 HDFS FileSystem API 常见的两种使用方式，最后来看下 HDFS 源码中是如何根据用户的配置文件创建对应的 FileSystem 对象实例的。

以下是正文。

从一个报错聊起

问题现象：某 JAVA 作业需要读取 HDFS 文件系统中的文件，作业提交后报错如下：

java.io.IOException: No FileSystem for scheme: hdfs
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)

问题原因：类加载路径上缺少 hdfs 相关 Jar包 hadoop-hdfs-*.jar，导致org.apache.hadoop.fs.FileSystem 创建 FileSystem实列时没有创建 org.apache.hadoop.hdfs.DistributedFileSystem，所以当配置文件中配置 fs.defaultFS 为 hdfs://nameservice1 时，会寻找 hdfs scheme 即org.apache.hadoop.hdfs.DistributedFileSystem，此时自然找不到，就会报上述错误。
问题解决：只需要确保类的 Classpath 下有对应的 hdfs相关 jar报即可解决上述报错（注意在分布式环境中可能会涉及到不同 classloader下不同的加载机制），具体来讲：

可以在 pom中添加相关依赖：

        <dependency>
        <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.4</version>
        </dependency>

在linux上提交时，可以通过类似以下命令确保类加载路径上包含相关 hdfs jar包：

java -cp ./test-1.0-SNAPSHOT-jar-with-dependencies.jar:`hadoop classpath` com.hundsun.HdfsTest core-site-test.xml hdfs-site-test.xml

HDFS FileSystem api 常见的两种方式

粗略来看，通过 HDFS FileSystem api 创建 FileSystem 实例时，主要有两种方式,两者在如何配置访问不同集群的 HDFS 上略有差异。以下是示例代码。

方式一：代码使用原生JAVA，目标 hdfs 集群的配置信息，通过导出目标集群中的配置文件core-site 和 hdfs-site.xml并放到特定路径下加载进来

package com.mingge.hdfs.demo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;

public