0

我有一个 Spring 引导应用程序,它通过由 Kerberos 保护的 Apache Knox 保护的 Webhdfs 访问 HDFS。我KnoxWebHdfsFileSystem使用自定义方案 ( swebhdfsknox ) 创建了自己的子类WebHdfsFilesystem,它只更改 URL 以包含 Knox 代理前缀。所以它有效地重新映射来自表单的请求:

http://host:port/webhdfs/v1/...

到诺克斯一号:

http://host:port/gateway/default/webhdfs/v1/...

我通过覆盖两种方法来做到这一点:

  1. public URI getUri()
  2. URL toUrl(Op op, Path fspath, Param<?, ?>... parameters)

到现在为止还挺好。我让 spring bootFsShell为我创建并将其用于各种操作,例如列表文件mkdir等。一切正常。除了copyFromLocal,如文档所述,它需要 2 个步骤和重定向。最后一步,当文件系统尝试访问在LocationPUT标头中接收到的最终 URL时,它会失败并出现错误:

org.apache.hadoop.security.AccessControlException: Authentication required
    at org.apache.hadoop.hdfs.web.WebHdfsFileSystem.validateResponse(WebHdfsFileSystem.java:334) ~[hadoop-hdfs-2.6.0.jar:na]
    at org.apache.hadoop.hdfs.web.WebHdfsFileSystem.access$200(WebHdfsFileSystem.java:91) ~[hadoop-hdfs-2.6.0.jar:na]
    at org.apache.hadoop.hdfs.web.WebHdfsFileSystem$FsPathOutputStreamRunner$1.close(WebHdfsFileSystem.java:787) ~[hadoop-hdfs-2.6.0.jar:na]
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:54) ~[hadoop-common-2.6.0.jar:na]
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:112) ~[hadoop-common-2.6.0.jar:na]
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:366) ~[hadoop-common-2.6.0.jar:na]
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:338) ~[hadoop-common-2.6.0.jar:na]
    at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:302) ~[hadoop-common-2.6.0.jar:na]
    at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1889) ~[hadoop-common-2.6.0.jar:na]
    at org.springframework.data.hadoop.fs.FsShell.copyFromLocal(FsShell.java:265) ~[spring-data-hadoop-core-2.2.0.RELEASE.jar:2.2.0.RELEASE]
    at org.springframework.data.hadoop.fs.FsShell.copyFromLocal(FsShell.java:254) ~[spring-data-hadoop-core-2.2.0.RELEASE.jar:2.2.0.RELEASE]

我怀疑问题出在重定向,但无法弄清楚这里可能存在什么问题。如果我通过curl执行相同的请求,则文件成功上传到 HDFS。

4

1 回答 1

2

这是使用 Knox 上 kerberos 的 HadoopAuth 提供程序针对 Apache Knox 使用现有 Hadoop 客户端的一个已知问题。如果您要使用 curl 或其他一些 REST 客户端,它可能对您有用。现有的 Hadoop java 客户端不期望来自 DataNode 的 SPNEGO 挑战 - 这是发送步骤中的 PUT 正在与之交谈的内容。DataNode 期望 NameNode 在第一步中发布的块访问令牌/委托令牌存在。然而,Knox 网关将要求对该拓扑的每个请求进行 SPNEGO 身份验证。

这是一个正在解决的路线图上的问题,并且可能会随着兴趣在集群内部更多地移动而变得更热,而不仅仅是从外部通过它访问资源。

以下 JIRA 跟踪此项目,从标题中可以看出与 DistCp 相关,这是一个类似的用例: https ://issues.apache.org/jira/browse/KNOX-482

随意看看并帮助测试或开发 - 这将是最受欢迎的!

另一种可能性是更改 Hadoop java 客户端以处理 DataNode 的 SPNEGO 挑战。

于 2016-05-05T01:36:24.823 回答