问题标签 [webhdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
612 浏览

hadoop - 如何从安全节点使用 webhdfs 读取 hdfs 文件?

我想进行 webhdfs 调用以使用 Java 从安全节点检索文件。

这是我正在做的 1. 使用 keytab 登录(工作正常)。我得到了 kerberos 票 2。现在,当我尝试调用以下代码时,它所做的是,它尝试通过进行 https 调用来获取委托令牌,但失败并显示 401 https://mynode:50070/webhdfs/v1 /?op=GETDELEGATIONTOKEN&user.name=myuser

下面是打开 hdfs 文件 FileSystem webFS = FileSystem.get(new URI("swebhdfs://" + domain + "myfile"), conf);
BufferedReader br=new BufferedReader(new InputStreamReader(webFS.open(new Path("swebhdfs://" + domain + "myfile"))));

我的问题是,因为我有 kerberos 票,我怎样才能将这张票传递给 UserGropupInformation 对象?

谢谢,

0 投票
4 回答
16523 浏览

hadoop - hdfs 把 VS webhdfs

我正在使用 webhdfs 在 hadoop hdfs 中加载 28 GB 文件,加载大约需要 25 分钟。

我尝试使用 hdfs put 加载相同的文件,它花了大约 6 分钟。为什么性能差别这么大?

推荐使用什么?有人可以解释或指导我找到一些好的链接,这将非常有帮助。

下面是我正在使用的命令

这将重定向到我在下一步中用于写入数据的数据节点地址。

0 投票
1 回答
575 浏览

r - WebHDFS REST API 和 R

是否支持在 R 中使用WebHDFS REST API?类似于python 包的东西?

0 投票
2 回答
2421 浏览

rest - 在hadoop中,可以通过knox + webhdfs访问的数据大小是否有限制?

在hadoop中,通过knox + webhdfs可以访问/摄取到HDFS的数据大小是否有限制?

0 投票
3 回答
1768 浏览

webhdfs - webhdfs 在 HDP 沙箱上不起作用

在 Hortonworks 沙盒 HDP 2.3_1 上执行以下命令时出现错误:

当我将端口更改为 50070 时,我收到一条消息"curl: (7) couldn't connect to host“。

在我的 hdsf-site.xml 及其单节点 hadoop 集群中启用了 webhdfs 属性。

0 投票
1 回答
638 浏览

rest - webhdfs 两步上传文件

我用 4 台机器构建了一个 hadoop 集群:

  • {主机名}:{IP 地址}
  • 主人:192.168.1.60
  • 从机1:192.168.1.61
  • 从机2:192.168.1.62
  • 从机3:192.168.1.63

我使用 HttpFS 以 restful 的方式将文件上传到 hdfs,其中包含两个步骤来完成任务。

服务器返回结果如下:

位置:http://slave1:50075/webhdfs/v1/user/haduser/myfile.txt?op=CREATE&user.name=haduser&namenoderpcaddress=master:8020&overwrite=false

  • 第二步:使用响应地址上传文件。

在第 1 步中,如何获取数据节点的 IP 地址(192.168.1.61)而不是主机名(slave1)?

0 投票
0 回答
317 浏览

hadoop - WebHCat 的替代品

Hive 可以选择使用 WebHCat 通过基于 REST 的 API 查询 HIVE 表。

WebHCat 需要 2 次调用 -

  • 调用 1 通过 webhcat 提交查询。

  • 调用 2 通过 webhdfs 检索输出文件。

是否有任何其他替代 webhcat 的方法允许应用程序在不需要 Java/Python/.NET 等的情况下对 HIVE 数据库进行基于 REST 的调用?

谢谢,马尼什

0 投票
0 回答
1226 浏览

java - Hadoop WebHDFS Java 客户端 API 启用 SSL 和基本身份验证

我有一个 Spring Boot 应用程序,用于spring-yarn-boot:2.2.0.RELEASE访问 Hadoop 文件系统 (HDFS)。我所做的操作是LISTSTATUS,GETFILESTATUSOPEN(读取文件)。HDFS URI 通过 application.properties 指定:

我制作了一个提供 Hadoop 配置的 bean(Spring 在启动时会以某种方式自动为我准备):

一切都按预期进行,但是当我有两个新要求时,问题就来了。

首先,从现在开始 HDFS 将受到 SSL 保护。我似乎找不到任何方法来告诉我的应用程序以 webhdfs:// 开头的 fsURI 实际上是一个 https 连接。如果我直接给出 https URL,我会得到一个例外:

...这是由该代码引起的:FileSystem.get(configuration).

这件事让我发疯,我似乎没有找到办法通过这个。

第二个要求是,我需要使用基本身份验证对 WebHDFS 进行身份验证。为此,我在客户端 API 中也找不到任何方法。

有没有人以前做过并且有任何说明可以分享?或者也许有人知道我可以使用不同的客户端 API 来完成此操作?

一种选择是使用 RestTemplate 或任何其他 REST 服务使用者 API 自己实现 REST 调用,但这看起来不是那么特殊的用例,所以我真的希望已经完成了一些事情。

编辑:

找到了 HTTPS 问题的解决方案。一个应该swebhdfs://用作 url 前缀,一切都会正常工作。仍然没有找到基本身份验证问题的解决方案。

0 投票
1 回答
549 浏览

java - Hadoop Java 客户端 API 弄乱了我的 fsURI

我尝试在 Spring Boot 应用程序的 Java API 的帮助下访问 Hadoop Sandbox 中的 HDFS。我使用配置参数来指定访问文件系统的 URI spring.hadoop.fsUri。HDFS 本​​身受 Apache Knox 保护(对我而言,它应该充当处理身份验证的代理)。因此,如果我使用 curl 调用代理 URI,我将使用与不使用 Apache Knox 时完全相同的语义。例子:

问题是我无法使用 Hadoop 客户端库访问此网关。配置参数中的根 URL 为:

所有请求都会出现错误 404,并且从日志中可以看到问题的原因:

它破坏了我最初提供的 fsURI。如果我调试 Hadoop API 内部发生的事情,我发现它只需要域部分并从常量sandbox.hortonworks.com:8443附加到它。/webhdfs/v1/所以无论我原来的 URI 是什么,最后都会是https://my-provided-hostname/webhdfs/v1. 我知道它可能与swebhdfs://开头有关,但我不能https://直接使用,因为在这种情况下,如果没有像 https 这样的文件系统,会抛出异常。

谷歌搜索,我发现了一个旧的邮件列表线程,其中有人遇到了同样的问题,但没有人回答过海报。

有谁知道可以做些什么来解决这个问题?

0 投票
2 回答
1299 浏览

c# - 从 .Net 应用程序(控制台)访问受 kerberos 保护的 webhdfs

由于 Kerberos 安全性,我无法从浏览器访问 WebHDFS。谁能帮我这个?

以下是“http://****.****/webhdfs/v1/prod/snapshot_rpx/archive?op=LISTSTATUS&user.name=us”的浏览器错误</p>

HTTP 错误 401

访问 /webhdfs/v1/prod/snapshot_rpx/archive 时出现问题。原因:需要验证

用于向此 URL 发出请求的 .Net 代码