问题标签 [hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
11995 浏览

hadoop - Hadoop MapReduce 中的错误

当我使用 Hadoop 运行 mapreduce 程序时,出现以下错误。

这个错误是关于什么的?

0 投票
2 回答
721 浏览

java - Hadoop 中的动态节点

Hadoop启动后是否可以添加新节点?我知道您可以删除节点(因为主节点倾向于密切关注节点状态)。

0 投票
5 回答
22886 浏览

java - 不使用 JobConf 运行 Hadoop 作业

我找不到提交不使用已弃用JobConf类的 Hadoop 作业的单个示例。 JobClient,尚未被弃用,仍然只支持带JobConf参数的方法。

Configuration有人可以指出一个 Java 代码示例,该示例仅使用类(不是)提交 Hadoop map/reduce 作业JobConf,并使用mapreduce.lib.input包而不是包mapred.input

0 投票
4 回答
5468 浏览

java - 象形人编程

在 mahout 中执行程序的分步过程是什么

0 投票
2 回答
769 浏览

amazon - 在 Amazon Mapreduce 中运行的 pig 脚本中的 STREAM 关键字

我有一个猪脚本,可以激活另一个 python 程序。我能够在我自己的 hadoop 环境中这样做,但是当我在 Amazon map reduce WS 中运行我的脚本时总是失败。

日志说:

org.apache.pig.backend.executionengine.ExecException:错误 2090:处理减少计划时收到错误:''失败,退出状态:127 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce。在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer 的 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) 运行管道(PigMapReduce.java:347)。 PigMapReduce$Reduce.reduce(PigMapReduce.java:260) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) 在 org.apache.hadoop.mapred.ReduceTask。在 org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216) 运行(ReduceTask.java:321)

任何的想法?

0 投票
3 回答
5845 浏览

hadoop - Hadoop 在另一个文件中从一个文件中搜索单词

我想构建一个 hadoop 应用程序,它可以从一个文件中读取单词并在另一个文件中搜索。

如果单词存在 - 它必须写入一个输出文件 如果单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了一些例子。我有两个问题

两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点?

由于hadoop的reduce阶段的输出只写入一个文件,如何将数据写入不同的文件。是否可以有一个减少阶段的过滤器来将数据写入不同的输出文件?

谢谢你。

0 投票
9 回答
826 浏览

algorithm - 语料库中的高效搜索

我有几百万个单词,我想在十亿个单词的语料库中搜索。什么是有效的方法来做到这一点。

我正在考虑使用 trie,但是是否有可用的 trie 开源实现?

谢谢

- 更新 -

让我添加一些关于究竟需要什么的更多细节。

我们有一个系统,我们抓取新闻来源并根据词的频率获取流行词。可能有一百万个单词。

我们的数据看起来像这样。

字 1 频率 1 字 2 频率 2(制表符分隔)

我们还从另一个来源获得了最受欢迎的词(10 亿),其中也包含上述格式的数据。

这是我想得到的输出。

  • 两个来源共有的词
  • 单词仅出现在我们的来源中,但不在参考来源中。
  • 单词仅出现在参考来源中,但不在我们的来源中。

我只能对上述信息使用 comm(bash 命令)来获取单词。我不知道如何使用 comm 仅与一列而不是两列进行比较。

该系统应该是可扩展的,我们希望每天都执行此操作并比较结果。我也想得到近似匹配。

所以,我正在考虑写一个地图减少工作。我打算编写如下的 map 和 reduce 函数,但我有几个问题。

我有两个问题。在 map reduce 中,我可以提供一个包含我的两个文件的目录作为输入。我不知道如何获取我从中读取单词的文件名。如何获取这些信息?如何写入不同的输出文件,因为 reduce 阶段会自动写入名为 part-xxxxx 的默认文件。如何写入不同的输出文件。

感谢您阅读本文。

0 投票
2 回答
1608 浏览

python - 我正在使用 Hadoop 使用 python 进行数据处理,应该使用什么文件格式?

我正在使用 Hadoop 使用 python 进行数据处理,应该使用什么文件格式?

我有大量文本页面的项目。

每个文本文件都有一些我需要在处理过程中保留的头信息;但是,我不希望标题干扰聚类算法。

我在 Hadoop 上使用 python(或者是否有更适合的子包?)

我应该如何格式化我的文本文件,并将这些文本文件存储在 Hadoop 中进行处理?

0 投票
1 回答
879 浏览

hadoop - Hadoop 和小飞象的新手,如何正确排序这些操作?

考虑以下日志文​​件格式:

我们将使用 dumbo 计算 Hadoop 集群上每个数据行的平均值频率 (AVF) 。具有 m 个属性的数据点的 AVF 定义为:

所以对于第一行,avf = (1/3)*(1+2+1) ~= 1.33。异常值由低 AVF 识别。

编程问题

我们有以下伪/python代码:

问题是,我们如何将我们的数据点集插入map1map2,以及使用Hmap2 中的中间散列。如上所述H进行全局定义似乎违背了 MapReduce 概念。

0 投票
6 回答
807 浏览

java - 分布式计算应用

Map reduce/Hadoop 是用于分布式系统的框架/程序之一。

还有哪些其他流行的框架/程序?