问题标签 [hortonworks-data-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
256 浏览

java - hadoop reducer 是否有输入超时?

我有一个 hadoop 作业,我试图在 8 节点 Windows HDP 集群上运行。该作业有超过 137000 个输入,它在大约 3.5 小时内处理了 84% 到 92% 的地图任务。然后 reducer 在 0% 处重新启动,并且 map 任务重新运行。工作永远不会完成。

我的问题是,reducer 从 dfs 读取 map 输出或块是否有超时导致 reducer 重新启动?或者,如果减速器达到某种限制,它会产生一条错误消息,帮助我确定原因。我的第一个障碍是默认队列只允许 100000 个任务,但作业出错,并显示这样的消息。

我正在使用的 hadoop 版本是您使用 Microsoft HDInsight 获得的版本。它似乎是 windows 的 hadoop 1.1.0 快照(Hortonworks Data Platform 1.0.1 Developer Preview for Windows)。我设置属性为客户端任务提供 8000mb 的内存。由于 jobtracker 是从 Windows 服务启动的,因此我无法确定 VM 实际启动时使用了多少内存。

0 投票
3 回答
9423 浏览

java - Hiveserver2 Java API

我已经能够连接到使用创建的 hiveserver (1)

使用以下java:

hiveserver2 是否存在等价物,如果存在,它是什么?我找到的最好的是一个设计提案,我还没有找到任何文档。看起来 Cloudera 在这里为 python 设置了一些东西

或者,从 Java 运行任意 Hive 查询的最佳方法是什么?如果相关,我在 Hortonworks Data Platform 1.2 上运行

0 投票
1 回答
16108 浏览

java - 使用 Hiveserver2 Thrift Java 客户端时请求挂起

这是这个问题的后续问题,我在其中询问 Hiveserver 2 thrift java 客户端 API 是什么。如果您不需要更多上下文,这个问题应该能够在没有该背景的情况下站得住脚。

找不到任何关于如何使用 hiverserver2 thrift api 的文档,我把它放在一起。我能找到的最佳参考是Apache JDBC implementation

我针对使用创建的 Hiverserver2 实例运行此代码

调试时,我从来没有越过这条线

客户端只是挂起,直到达到超时并且服务器不向标准输出或日志写入任何内容。使用 Wireshark,我可以看到 OpenSession() 的 TCP 段已发送并确认。一旦我杀死客户端或达到超时,服务器会给我以下信息:

我发现有趣的是,当我错误地尝试对 hiveserver2 使用 hiveserver (1) 客户端时,我收到的错误完全相同,这表明就 hiverserver2 而言,我的客户端正在向它发送垃圾。

我看到了我可能出错的三种可能性。

1) 我对客户端 API 的使用是错误的。我看到在 JDBC 实现中有一些关于身份验证和连接参数的东西,我在我的示例代码中没有使用这些东西。我玩弄了它,但我在黑暗中拍摄并且没有进一步。

2)我有一些设置步骤错误。我无法在 hive-servive-0.10.0 jar 中找到 TCLIService,但我能够在 Hortonworks 在 HDP 1.2 中发布的 hive-servive-0.10.0.21 jar 中找到它,所以也许可以挖掘一下揭示问题。或者也许我需要配置服务器端的东西来解释为什么我可以使用 ODBC 但不能使用我的节俭客户端连接到配置单元。

3) 可能此时无法针对 hiveserver2 客户端 api 进行写入。由于缺乏文档和互联网上明显缺乏成功的例子,这是合理的,但 JDBC 似乎做到了。我发现这是最不可能的选择。

即使您不知道修复,知道修复是否属于 1、2 或 3 也将有助于缩小我的搜索范围。

0 投票
2 回答
2204 浏览

hadoop - 在 Windows 上使用 python 进行 Hadoop 流式传输

我正在使用 Hortonworks HDP for Windows 并成功配置了一个主设备和 2 个从设备。

我正在使用以下命令;

bin\hadoop jar contrib\streaming\hadoop-streaming-1.1.0-SNAPSHOT.jar -files file:///d:/dev/python/mapper.py,file:///d:/dev/python/reducer.py -mapper "python mapper.py" -reducer "python reduce.py" -input /flume/0424/userlog.MDAC-HD1.MDAC.local..20130424.1366789040945 -output /flume/o%1 -cmdenv PYTHONPATH=c:\python27

映射器运行良好,但日志报告未找到 reduce.py 文件。在异常情况下,hadoop 任务运行程序似乎正在为 reducer 创建指向 mapper.py 文件的符号链接。

当我检查作业配置文件时,我注意到mapred.cache.files设置为;

hdfs://MDAC-HD1:8020/mapred/staging/administrator/.staging/job_201304251054_0021/files/mapper.py#mapper.py

看起来虽然 reduce.py 文件已添加到 jar 文件中,但它没有正确包含在配置中,并且在 reducer 尝试运行时无法找到。

我认为我的命令是正确的,我尝试使用 -file 参数,但没有找到任何文件。

任何人都可以看到或知道一个明显的原因吗?

请注意,这是在 Windows 上。

编辑-我刚刚在本地运行它并且它工作,看起来我的问题可能与集群周围的文件复制有关。

仍然欢迎输入!

0 投票
2 回答
2198 浏览

sql - 如何将 SQL 数据加载到 Hortonworks?

我已经在我的电脑中安装了 Hortonworks SandBox。还尝试使用 CSV 文件并以表结构方式获取它的 OK(Hive + Hadoop),nw 我想将我当前的 SQL 数据库迁移到沙箱(MS SQL 2008 r2)。我将如何做到这一点?还想连接到我的项目(VS 2010 C#)。

是否可以通过 ODBC 连接?

我听说 sqoop 用于将数据从 SQL 传输到 Hadoop,那么我如何使用 sqoop 进行此迁移?

0 投票
3 回答
5761 浏览

hadoop - Hive:SELECT * 语句有效,但 SELECT COUNT(*) 无效

我在 Windows Server 2008 R2 上有 HDP 1.1。
我将 Web 登录加载到配置单元表。创建表语句:

负载语句:

选择语句:

到目前为止一切正常。

以下语句失败:

除了:

失败:执行错误,从 org.apache.hadoop.hive.ql.exec.MapRedTask 返回代码 2

编辑1:

失败作业表中的诊断信息显示以下信息:

'# of failed Map Tasks 超出了允许的限制。FailedCount: 1. LastFailedTask: task_201306251711_0010_m_000000'

0 投票
1 回答
1333 浏览

hadoop - 使用 yarn 客户端连接到 HDP 2.0 (Hortonworks Hadoop)

我在 VirtualBox 中下载并启动了 HDP 2.0,然后尝试使用 YarnClient 从 Java 连接

但是遇到了以下错误:

任何想法出了什么问题?

我正在使用来自中央仓库的 Hadoop 库版本 2.1.0-SNAPSHOT,这是我的 yarn-site.xml

连接达到其目标。刚刚查看了服务器日志,这似乎是一个授权问题:

但是所有文档都对我应该如何配置所有这些安全性内容保持沉默。任何人都亲身体验过 Hortonworks 产品?

0 投票
1 回答
736 浏览

hbase - CDH4.3 中的 Sqoop 1.4.4 不兼容ClassChangeError

Sqoop 1.4.4 支持使用复合行键从 db 导入 HBase,而在 1.4.4 之前,只能将 db 中的一列用作行键。到目前为止,CDH4.3 和 HDP1.3 都只支持 Sqoop 1.4.3。我试图将 sqoop 1.4.4 交换到我的 CDH4.3 环境中。当我运行一个简单的 Sqoop 作业时,出现以下错误:

以前有人收到过这个吗?谁能给我指点 Sqoop 1.4.4 兼容哪些版本的mapreduce、HBase 和HDFS?

0 投票
1 回答
729 浏览

hadoop - 从远程服务器连接到 pig

我是 Hortonworks Sandbox 的新手,我想知道它是否允许使用 curl 从远程机器建立外部连接以检索已完成的作业或启动新作业。如果可以,将不胜感激使用它的示例。

我已经尝试了一段时间,并且我继续在页面中登录作为 curl 请求的响应(即使我使用来自 curl 的 user|password 命令使用适当的凭据)。

我正在使用 Hortonworks 提供的免费下载的 Hortonworks Sandbox v1.3 虚拟盒映像来运行环境。

0 投票
1 回答
1184 浏览

c# - C# 中的 Hadoop - 响应状态代码不表示成功:500(服务器错误)

尝试在 Hadoop 集群上运行 MapReduce 作业时遇到一个奇怪的异常。这里有趣的是我可以访问 HDFS,但无法运行作业。

我正在使用 Hortonworks 沙箱进行测试,如果它有什么不同的话。确切的错误是:“无法解析远程名称:'sandbox'”。

谁能解释为什么会发生这种情况以及我能做些什么来解决它?

编辑:我已通过将 Hadoop 集群的 IP 添加到主机文件来解决此问题,但是现在我收到以下异常:“响应状态代码不表示成功:500(服务器错误)。”