问题标签 [hortonworks-sandbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
talend - 将本地文件复制到 HDFS 时出现 Talend 问题
您好我想知道如何将文件从源文件系统(本地文件系统)复制到 HDFS,如果源文件已经复制到 HDFS,那么如何消除或忽略该文件以使用 Talend 在 HDFS 中再次复制。
谢谢文卡特
hadoop - 在 HDP 2.3 上安装 spark 客户端时无法确定当前的 HDP
在使用 Apache Ambari 的自动设置指南部署 hdp 集群设置时,我们在边缘节点遇到以下错误。
标准错误:2016-08-08 17:46:03,644 - 无法通过调用“/usr/bin/hdp-select status spark-client > /tmp/tmp_vn3OF”来确定组件 spark-client 的 HDP 版本。返回码:1,输出:。
单击此处查看完整的控制台日志
我们还尝试使用此链接在 HDP 上安装 Apache Spark
jdbc - Sqoop 列表数据库需要--connection-manager
我正在使用 Hortonworks Sandbox HDP 2.4,但我无法使用该list-databases
工具,尽管import
它正在工作。
这是我得到的结果
响应说我需要设置--connection-manager
参数,我不知道。
如果我取出 --driver 参数,我会得到异常:
有什么价值--connection-manager
?
hadoop - 如何使用 HDP 2.4 在 Hortonworks 沙箱中检查 Mapreduce 作业日志
可能是一个蹩脚的问题,但即使经过大量研究,我仍然无法弄清楚如何从 hortonworks 沙箱中的资源管理器 UI 检查地图减少作业日志。
任何帮助将不胜感激。
谢谢。
java - 计数的 Apache Pig 分配和解析问题
目前正在学习 Apache Pig 和 Hadoop 并使用 6200 万的庞大数据集。只是尝试执行正常的 COUNT 函数并不断出错。我分配了 8gig 的 RAM,我可以使用 HIVE 轻松完成,但似乎遇到了解析问题或堆分配问题,每次都不同。我在虚拟机上使用 hadoop。
错误是:
文件 script.pig,第 3 行,第 39 列> 无法生成逻辑计划。嵌套异常:org.apache.pig.backend.executionengine.ExecException:错误 1070:无法使用导入解析计数:[、java.lang.、org.apache.pig.builtin.、org.apache.pig.impl.builtin .]
错误 org.apache.pig.PigServer - 解析期间出现异常:解析期间出错。无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
错误 org.apache.pig.tools.grunt.Grunt - 错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
我的猪代码
hadoop - 无法使用 kafka 命令行向 Kafka 主题/生产者发送 json 推文事件
我创建了一个 python 脚本raw_tweets_stream.py
来使用 twitter api 流式传输 twitter 数据。使用下面的脚本将来自 twitter 的 json 数据传输到 kafka 生产者。
raw_json_tweets
是为这些推文创建的 kafka 主题。python 脚本raw_tweets_stream.py
运行得很好,但在将其发送给 kafka 生产者时会引发错误。我正在使用 Hortonworks HDP 2.3.1 沙箱,并确保 Zookeeper 和 kafka 已启动。
/usr/hdp/current/kafka-broker/bin/kafka-topics.sh --zookeeper localhost:2181 --describe --topic raw_json_tweets
错误:
更新:解决方案
- 前往 Ambari Services 并将 Kafka 日志目录更改为
/tmp/kafka-logs
. 修改了原始脚本以包含正确的端口和主机名。
python raw_tweets_stream.py | /usr/hdp/current/kafka-broker/bin/kafka-console-producer.sh --broker-list sandbox.hortonworks.com:6667 --topic raw_json_tweets
使用控制台消费者验证事件是否发送到 kafka 主题。
/usr/hdp/2.3.0.0-2557/kafka/bin/kafka-console-consumer.sh -zookeeper sandbox.hortonworks.com:2181 -topic raw_json_tweets -from-beginning
hadoop - Flume HDFS 接收器未从 Kafka 通道在 hdfs 中创建文件
我正在尝试实现一个简单的 Flume HDFS 接收器,它将从 Kafka 通道获取事件并将它们作为文本文件写入 hdfs。
该架构非常简单。这些事件从 twitter 流式传输到 kafka 主题,flume hdfs sink 确实会将这些事件写入 hdfs。这是Kafka-producer stackoverflow question的第 2 部分。
执行此命令时没有错误,似乎工作正常,但我无法在 hdfs 中看到文本文件。我无法调试或调查,因为文件/var/log/flume/
夹中没有创建日志文件。我正在使用 Hortonworks 沙箱 2.3.1 和 hue 来浏览文件系统。
执行flume的命令: flume-ng agent -n KafkaSink -c conf -f tweets_sink_flume.properties
Flume 属性文件: tweets_sink_flume.properties
以下是相关 Flume 控制台输出的一部分:
google-compute-engine - 使用 OVA 文件(VirtualBox 映像)创建 Google Compute Engine VM 实例
我想在 Google Compute Engine中加载 Hortonworks 沙盒VirtualBox/VMware 映像。可能吗?如果是,如何?
我可以在笔记本电脑中本地加载图像,但这会占用所有资源并减慢一切。
hadoop - nutch 中的喷油器不工作
我尝试使用 elasticsearch 1.1.1 hbase 1.1.2 gora 0.3 jdk 7 在 Hadoop(hdp 沙箱 2.3)中的 nutch 2.2.1 中启动注入器,但我得到了这个异常:
hadoop - 无法使用 jconsole 连接到在 HDP 沙箱上运行的 jmx 指标
我将以下属性添加到 hbase-site.xml
将以下配置添加到hbase-env
:
无法从 jconsole 远程访问 hbase jmx 指标。