问题标签 [hadoopy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2091 浏览

python - Cython & Hadoopy 编译错误..关于修复的任何想法?

我正在尝试运行Hadoopy,但在 OS X 上出现编译错误:

我有/Developer/usr/bin$PATH并且正在 OS X Lion 10.7 上运行最新版本的 XCode。Cython 是通过easy_install.

完整输出:

0 投票
2 回答
4269 浏览

hadoop - 如何在 Hadoop 中访问和操作 pdf 文件的数据?

我想使用hadoop阅读PDF文件,怎么可能?我只知道hadoop只能处理txt文件,所以无论如何都要将PDF文件解析为txt。

给我一些建议。

0 投票
1 回答
448 浏览

hadoop - apache Hadoop-2.0.0 aplha 版本在全集群中使用联邦安装

我已经成功安装了hadoop稳定版。但在安装 hadoop -2.0.0 版本时感到困惑。

我想在两个节点上安装 hadoop-2.0.0-alpha,在两台机器上使用联合。rsi-1、rsi-2 是主机名。

以下属性的值应该是什么来实现联邦。两台机器也都用于数据节点。

fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir dfs.datanode.data.dir yarn.nodemanager.localizer.address yarn.resourcemanager.resource-tracker.address yarn.resourcemanager.scheduler.address yarn.resourcemanager.address

还有一点,在稳定版本的 hadoop 中,我在安装目录的 conf 文件夹下有配置文件。

但是在 2.0.0-aplha 版本中,有 etc/hadoop 目录,它没有 mapred-site.xml、hadoop-env.sh。我需要将共享文件夹下的conf文件夹复制到hadoop-home目录吗?还是我需要将这些文件从共享文件夹复制到 etc/hadoop 目录中?

问候, 拉什米

0 投票
1 回答
387 浏览

java - Hadoop 流、typedbytes 和/或 rawbytes 中的键、值和记录是如何分隔的

我知道 Hadoop 流中的文本记录由换行符分隔,并且键和值之间有一个可配置的分隔符(默认为制表符)。

1) rawbytes 格式的结构表明不需要记录或键/值分隔符,但有人可以确认是这种情况吗?

2)在typedbytes格式中,key和value是如何分隔的,record是如何分隔的?

3)另外,键是如何以 typedbytes 和 rawbytes 格式排序的?

0 投票
4 回答
805 浏览

hadoop - 数据节点未启动

我在我的盒子中配置了 hadoop 设置并使用示例程序一切都很好并且运行良好所有守护进程也处于运行状态。第二天早上数据节点没有运行。

0 投票
1 回答
4668 浏览

python - pydoop vs hadoopy - hadoop python客户端

在为 Hadoop 搜索 python 客户端时,我发现了两个模块 pydoop 和 hadoopy。似乎两者都可以很好地使用,但不确定哪一个比另一个有更多的优势来安装一个。

0 投票
2 回答
2303 浏览

python - 如何使用python在hadoop中保存文件

我正在尝试使用 python 2.7 将文件保存在 Hadoop 中。我在互联网上搜索。我有一些代码可以在 Hadoop 中保存文件,但它在保存时占用了整个文件夹(文件夹中的所有文件都保存在 Hadoop 中)。但我需要保存一个特定的文件。

这是在 Hadoop 中保存文件夹的链接: http ://www.hadoopy.com/en/latest/tutorial.html#putting-data-on-hdfs

现在我需要在 Hadoop 中保存一个特定文件,例如abc.txt.

这是我的代码:

我在这里need more than one value to unpack

任何帮助,将不胜感激。

0 投票
1 回答
66 浏览

hadoop - Mapreduce 失败日志 Hadoop

我在哪里可以找到包含有关 mapreduce 作业失败信息的日志?如果出现问题,我只会收到状态为 1 的错误退出。我正在运行 Hadoop 2.4.1 并使用 Hadoopy 进行 mapreduce 作业。

0 投票
1 回答
173 浏览

hadoop - Hadoopy 不会通过 mkdir

我目前正在开发一个使用 hadoop (2.7.0) 的项目我有一个配置和工作的两个节点集群(大部分)。我可以手动运行映射器/减速器作业,没有任何问题。但是当我尝试使用 hadoopy 开始工作时,我得到了一个错误。调试错误后,我看到它源自 hadoopy 执行的以下命令:

这会产生错误:

手动执行此操作时,如果我在文件目录名称前以“/”开头,则 mkdir 可以正常工作。如果我不以“/”开头,则会收到与上述相同的错误。ls 命令也是如此(ls / 给我一个结果, ls 给我一个错误,没有这样的文件或目录)。我猜我在某处搞砸了hadoop的配置。我只是想不通在哪里。

编辑:清除:我知道您应该将 mkdir 命令与直接路径一起使用(ea / 在它前面)。通过终端与 hadoop 交互时,我会这样做。然而,hadoopy 框架似乎没有这样做(它会抛出如上所示的错误)。我的问题是:hadoopy 中是否有针对此问题的修复/解决方法,还是我必须重写那里的源代码?

0 投票
0 回答
691 浏览

python - 如何通过 Hadoopy 从 HDFS 读取 CSV 文件?

我正在尝试将 python 连接到 HDFS,以便我可以逐行读取该文件。我尝试阅读 hadoopy 教程,但它从 HDFS 中读取以键值对形式存在的数据。我的方法应该是什么?

我试过这个。http://hadoopy.readthedocs.org/en/latest/tutorial.html#getting-data-from-hdfs