问题标签 [hadoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在hadoop中执行python mapreduce任务时出错?
我已经用python编写mapper
了reducer
示例wordcount
。这些脚本可以作为独立的脚本正常工作。但是在hadoop中运行时出现错误。
我在用hadoop2.2
这是我的命令:
如何解决这个问题?
apache-pig - pig latin - 没有显示正确的记录号
我写了一个pig script
工作wordcount
正常的。我可以在 hdfs 的输出目录中看到 pig 脚本的结果。但在我的控制台快结束时,我看到以下内容:
如您所见,这项工作是成功的。但不是Input(s)
and output(s)
。他们俩都说successfully read/stored 0 records
,并且计数器值都为0。为什么该值为零。这些不应该为零。
我在用hadoop2.2 and pig-0.12
这是脚本:
注意:我的数据存在于/data/pg5000.txt
而不是在默认目录中/usr/name/data/pg5000.txt
编辑:这是将我的文件打印到控制台的输出
hadoop - 在 hadoop 2.4.1 中启动 namenode 时出错
当我尝试使用以下命令启动 dfs 时:
我收到一条错误消息:
我的 core-site.xml 文件包含以下内容:
我的.profile
(替换为.bashrc
)包含以下几行:
我可以轻松地 ssh 我的 localhost 说:
unit-testing - Hadoop 的 Maven 依赖项:MiniDFSCluster 和 MiniMRCluster
我想实现一个 Maven 项目,它可以帮助我对 Hadoop MapReduce 作业进行单元测试。我最大的问题是定义 Maven 依赖项以便能够使用测试类:MiniDFSCluster 和 MiniMRCluster。
我正在使用 Hadoop 2.4.1。有任何想法吗?
hive - 在现有 Hadoop 集群上安装 Spark(使用 HIVE 的问题)
我正在尝试启动 Spark/Shark 集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作,并按说明处理 Hive。
这是详细信息,任何帮助都会很棒。
我已经安装了以下软件包:
火花/鲨鱼 1.0.0
阿帕奇 Hadoop 2.4.0
阿帕奇蜂巢 0.13
斯卡拉 2.9.3
爪哇 7
我将 ~/spark/conf/spark-env.sh 配置为:
导出 HADOOP_HOME=/path/to/hadoop/
导出 HIVE_HOME=/path/to/hive/
出口 MASTER=spark://xxx.xxx.xxx.xxx:7077
导出 SPARK_HOME=/path/to/spark
导出 SPARK_MEM=4g
导出 HIVE_CONF_DIR=/path/to/hive/conf/
源 $SPARK_HOME/conf/spark-env.sh
当使用“./spark-withinfo”启动 spark 时,出现以下错误:
我猜 Spark 在 Hive 中找不到一些连接 Metastore 的库,但我已经在这里堆了几天,不知道如何解决它。顺便说一句,我将 MYSQL 用于 hive 元数据,并且在 hive 中一切正常。
任何帮助表示赞赏。提前致谢。
hadoop - Hadoop命令行-D选项不起作用
我正在尝试使用 hadoop 中的 -D 命令行选项传递一个变量(不是属性),例如-Dmapred.mapper.mystring=somexyz
. 我可以在驱动程序中设置一个 conf 属性并在映射器中读回它。所以我可以使用它来将我的字符串作为附加参数传递并在驱动程序中设置它。但我想看看 -D 选项是否可以用来做同样的事情
我的命令是:
驱动程序
System.out.println("调试:在工具类mapred.mapper.regex "+s_ptrn + "\n"); 给出 NULL
但这有效
我的问题是,如果所有互联网都说我可以使用 -D 选项,那为什么我不能呢?是不是这不能用于任何参数而只能用于属性?我们可以通过将文件放入我应该在驱动程序中读取然后使用它的文件中读取哪些内容?
就像是
在驱动程序中,这是唯一的方法。
python - 无法在 Hadoop 中使用 python 运行 map reduce?
我已经在 python 中编写了 mapper 和 reducer,用于运行良好的字数统计程序。这是一个示例:
现在,当我尝试为大文件提交 hadoop 作业时,出现错误
我删除了将命令行更改为以下内容(从上面删除了通配符);
为什么我会收到这些错误以及如何解决这个问题?我用hadoop2.
谢谢!
eclipse - 在 Eclipse 中以独立模式运行 Hadoop2 map-reduce 作业时出错?
在 Eclipse 中运行 MR 作业时出现以下错误。
这是我的core-site.xml:
这是我的mapred-site.xml:
hadoop - 如何在 Hadoop 的 map-reduce 作业中获取由自定义比较器排序的键?
考虑一下class
:(从Hadoop: The definitive guide
第 3 版开始):
定义的有两种comparators
:一种是排序first
后跟second
默认comparator.
,另一种是first
仅排序,也就是firstComparator.
如果我必须使用 firstComparator 对我的键进行排序,我该如何实现?也就是说,我如何用first comparator
上面定义的 覆盖我的默认比较器。
其次,unitTest
由于map
job 的输出不是sorted
. ?
hadoop - 线程“主”java.lang.NoClassDefFoundError 中的异常:org/apache/hadoop/util/RunJar
我基本上是在尝试在远程节点上运行一个疯狂的 reduce 作业,我面临着下面提到的异常。有没有人经历过同样的问题?我正在发布我用来设置类路径和启动工作的 scipt。