问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop MapReduce 中的错误
当我使用 Hadoop 运行 mapreduce 程序时,出现以下错误。
这个错误是关于什么的?
java - Hadoop 中的动态节点
Hadoop启动后是否可以添加新节点?我知道您可以删除节点(因为主节点倾向于密切关注节点状态)。
java - 不使用 JobConf 运行 Hadoop 作业
我找不到提交不使用已弃用JobConf
类的 Hadoop 作业的单个示例。 JobClient
,尚未被弃用,仍然只支持带JobConf
参数的方法。
Configuration
有人可以指出一个 Java 代码示例,该示例仅使用类(不是)提交 Hadoop map/reduce 作业JobConf
,并使用mapreduce.lib.input
包而不是包mapred.input
?
java - 象形人编程
在 mahout 中执行程序的分步过程是什么
amazon - 在 Amazon Mapreduce 中运行的 pig 脚本中的 STREAM 关键字
我有一个猪脚本,可以激活另一个 python 程序。我能够在我自己的 hadoop 环境中这样做,但是当我在 Amazon map reduce WS 中运行我的脚本时总是失败。
日志说:
org.apache.pig.backend.executionengine.ExecException:错误 2090:处理减少计划时收到错误:''失败,退出状态:127 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce。在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer 的 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) 运行管道(PigMapReduce.java:347)。 PigMapReduce$Reduce.reduce(PigMapReduce.java:260) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) 在 org.apache.hadoop.mapred.ReduceTask。在 org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216) 运行(ReduceTask.java:321)
任何的想法?
hadoop - Hadoop 在另一个文件中从一个文件中搜索单词
我想构建一个 hadoop 应用程序,它可以从一个文件中读取单词并在另一个文件中搜索。
如果单词存在 - 它必须写入一个输出文件 如果单词不存在 - 它必须写入另一个输出文件
我在hadoop中尝试了一些例子。我有两个问题
两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点?
由于hadoop的reduce阶段的输出只写入一个文件,如何将数据写入不同的文件。是否可以有一个减少阶段的过滤器来将数据写入不同的输出文件?
谢谢你。
algorithm - 语料库中的高效搜索
我有几百万个单词,我想在十亿个单词的语料库中搜索。什么是有效的方法来做到这一点。
我正在考虑使用 trie,但是是否有可用的 trie 开源实现?
谢谢
- 更新 -
让我添加一些关于究竟需要什么的更多细节。
我们有一个系统,我们抓取新闻来源并根据词的频率获取流行词。可能有一百万个单词。
我们的数据看起来像这样。
字 1 频率 1 字 2 频率 2(制表符分隔)
我们还从另一个来源获得了最受欢迎的词(10 亿),其中也包含上述格式的数据。
这是我想得到的输出。
- 两个来源共有的词
- 单词仅出现在我们的来源中,但不在参考来源中。
- 单词仅出现在参考来源中,但不在我们的来源中。
我只能对上述信息使用 comm(bash 命令)来获取单词。我不知道如何使用 comm 仅与一列而不是两列进行比较。
该系统应该是可扩展的,我们希望每天都执行此操作并比较结果。我也想得到近似匹配。
所以,我正在考虑写一个地图减少工作。我打算编写如下的 map 和 reduce 函数,但我有几个问题。
我有两个问题。在 map reduce 中,我可以提供一个包含我的两个文件的目录作为输入。我不知道如何获取我从中读取单词的文件名。如何获取这些信息?如何写入不同的输出文件,因为 reduce 阶段会自动写入名为 part-xxxxx 的默认文件。如何写入不同的输出文件。
感谢您阅读本文。
python - 我正在使用 Hadoop 使用 python 进行数据处理,应该使用什么文件格式?
我正在使用 Hadoop 使用 python 进行数据处理,应该使用什么文件格式?
我有大量文本页面的项目。
每个文本文件都有一些我需要在处理过程中保留的头信息;但是,我不希望标题干扰聚类算法。
我在 Hadoop 上使用 python(或者是否有更适合的子包?)
我应该如何格式化我的文本文件,并将这些文本文件存储在 Hadoop 中进行处理?
hadoop - Hadoop 和小飞象的新手,如何正确排序这些操作?
考虑以下日志文件格式:
我们将使用 dumbo 计算 Hadoop 集群上每个数据行的平均值频率 (AVF) 。具有 m 个属性的数据点的 AVF 定义为:
所以对于第一行,avf = (1/3)*(1+2+1) ~= 1.33。异常值由低 AVF 识别。
编程问题
我们有以下伪/python代码:
问题是,我们如何将我们的数据点集插入map1
和map2
,以及使用H
map2 中的中间散列。如上所述H
进行全局定义似乎违背了 MapReduce 概念。
java - 分布式计算应用
Map reduce/Hadoop 是用于分布式系统的框架/程序之一。
还有哪些其他流行的框架/程序?