问题标签 [hadoop]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

43716 问题

0 投票

5 回答

11995 浏览

hadoop - Hadoop MapReduce 中的错误

当我使用 Hadoop 运行 mapreduce 程序时，出现以下错误。

这个错误是关于什么的？

hadoop mapreduce

2010-01-19T05:25:59.957

0 投票

2 回答

721 浏览

java - Hadoop 中的动态节点

Hadoop启动后是否可以添加新节点？我知道您可以删除节点（因为主节点倾向于密切关注节点状态）。

2010-01-21T21:10:40.793

0 投票

5 回答

22886 浏览

java - 不使用 JobConf 运行 Hadoop 作业

我找不到提交不使用已弃用JobConf类的 Hadoop 作业的单个示例。 JobClient，尚未被弃用，仍然只支持带JobConf参数的方法。

Configuration有人可以指出一个 Java 代码示例，该示例仅使用类（不是）提交 Hadoop map/reduce 作业JobConf，并使用mapreduce.lib.input包而不是包mapred.input？

java hadoop mapreduce

2010-01-22T05:38:39.320

0 投票

4 回答

5468 浏览

java - 象形人编程

在 mahout 中执行程序的分步过程是什么

java eclipse hadoop mahout

2010-01-22T11:56:00.763

0 投票

2 回答

769 浏览

amazon - 在 Amazon Mapreduce 中运行的 pig 脚本中的 STREAM 关键字

我有一个猪脚本，可以激活另一个 python 程序。我能够在我自己的 hadoop 环境中这样做，但是当我在 Amazon map reduce WS 中运行我的脚本时总是失败。

日志说：

org.apache.pig.backend.executionengine.ExecException：错误 2090：处理减少计划时收到错误：''失败，退出状态：127 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce。在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer 的 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) 运行管道（PigMapReduce.java:347）。 PigMapReduce$Reduce.reduce(PigMapReduce.java:260) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) 在 org.apache.hadoop.mapred.ReduceTask。在 org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216) 运行（ReduceTask.java:321）

任何的想法？

amazon hadoop mapreduce apache-pig

2010-01-24T14:03:37.507

0 投票

3 回答

5845 浏览

hadoop - Hadoop 在另一个文件中从一个文件中搜索单词

我想构建一个 hadoop 应用程序，它可以从一个文件中读取单词并在另一个文件中搜索。

如果单词存在 - 它必须写入一个输出文件如果单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了一些例子。我有两个问题

两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点？

由于hadoop的reduce阶段的输出只写入一个文件，如何将数据写入不同的文件。是否可以有一个减少阶段的过滤器来将数据写入不同的输出文件？

谢谢你。

hadoop mapreduce

2010-01-24T18:33:19.307

0 投票

9 回答

826 浏览

algorithm - 语料库中的高效搜索

我有几百万个单词，我想在十亿个单词的语料库中搜索。什么是有效的方法来做到这一点。

我正在考虑使用 trie，但是是否有可用的 trie 开源实现？

谢谢

- 更新 -

让我添加一些关于究竟需要什么的更多细节。

我们有一个系统，我们抓取新闻来源并根据词的频率获取流行词。可能有一百万个单词。

我们的数据看起来像这样。

字 1 频率 1 字 2 频率 2（制表符分隔）

我们还从另一个来源获得了最受欢迎的词（10 亿），其中也包含上述格式的数据。

这是我想得到的输出。

两个来源共有的词
单词仅出现在我们的来源中，但不在参考来源中。
单词仅出现在参考来源中，但不在我们的来源中。

我只能对上述信息使用 comm（bash 命令）来获取单词。我不知道如何使用 comm 仅与一列而不是两列进行比较。

该系统应该是可扩展的，我们希望每天都执行此操作并比较结果。我也想得到近似匹配。

所以，我正在考虑写一个地图减少工作。我打算编写如下的 map 和 reduce 函数，但我有几个问题。

我有两个问题。在 map reduce 中，我可以提供一个包含我的两个文件的目录作为输入。我不知道如何获取我从中读取单词的文件名。如何获取这些信息？如何写入不同的输出文件，因为 reduce 阶段会自动写入名为 part-xxxxx 的默认文件。如何写入不同的输出文件。

感谢您阅读本文。

algorithm search data-structures hadoop mapreduce

2010-01-24T22:31:35.997

0 投票

2 回答

1608 浏览

python - 我正在使用 Hadoop 使用 python 进行数据处理，应该使用什么文件格式？

我正在使用 Hadoop 使用 python 进行数据处理，应该使用什么文件格式？

我有大量文本页面的项目。

每个文本文件都有一些我需要在处理过程中保留的头信息；但是，我不希望标题干扰聚类算法。

我在 Hadoop 上使用 python（或者是否有更适合的子包？）

我应该如何格式化我的文本文件，并将这些文本文件存储在 Hadoop 中进行处理？

python hadoop

2010-01-27T02:21:22.630

0 投票

1 回答

879 浏览

hadoop - Hadoop 和小飞象的新手，如何正确排序这些操作？

考虑以下日志文件格式：

我们将使用 dumbo 计算 Hadoop 集群上每个数据行的平均值频率 (AVF) 。具有 m 个属性的数据点的 AVF 定义为：

所以对于第一行，avf = (1/3)*(1+2+1) ~= 1.33。异常值由低 AVF 识别。

编程问题

我们有以下伪/python代码：

问题是，我们如何将我们的数据点集插入map1和map2，以及使用Hmap2 中的中间散列。如上所述H进行全局定义似乎违背了 MapReduce 概念。

hadoop mapreduce

2010-01-29T09:02:03.790

0 投票

6 回答

807 浏览

java - 分布式计算应用

Map reduce/Hadoop 是用于分布式系统的框架/程序之一。

还有哪些其他流行的框架/程序？

java .net linux distributed hadoop

2010-01-30T01:50:58.620

1 2 3 4 5 6 7 8 9 10

问题标签 [hadoop]

编程问题

Reference