问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 Hadoop 中并行化 Ruby 减速器?
Ruby 中一个简单的 wordcount reducer 如下所示:
它在 STDIN 中获取所有映射器的中间值。不是来自特定的键。所以实际上所有人只有一个减速器(而不是每个单词或每组单词的减速器)。
但是,在 Java 示例中,我看到这个接口获取一个键和值列表作为 inout。这意味着中间映射值在归约之前按键分组,并且归约器可以并行运行:
这是 Java 独有的功能吗?或者我可以使用 Ruby 使用 Hadoop Streaming 来做到这一点吗?
hadoop - 如何控制 Hadoop 流作业的输出文件名称和内容?
有没有办法控制 Hadoop Streaming 作业的输出文件名?具体来说,我希望我的工作的输出文件内容和名称由减速器输出的 ket 组织 - 每个文件只包含一个键的值,它的名称就是键。
更新:刚刚找到答案 - 使用从 MultipleOutputFormat 派生的 Java 类作为作业输出格式允许控制输出文件名。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
我还没有看到任何示例...任何人都可以指出使用自定义输出格式 Java 类的 Hadoop Streaming 示例吗?
search - Nutch 搜索总是返回 0 个结果
我已经在集群上设置了 nutch 1.0。它已设置并已成功爬网,我使用 dfs -copyToLocal 复制了爬网目录,并将位于 tomcat 目录中的 nutch-site.xml 文件中的 searcher.dir 的值设置为指向该目录。仍然当我尝试搜索时,我收到 0 个结果。
任何帮助将不胜感激。
hardware - Hadoop 集群。2 台快速、4 台中等、8 台较慢的机器?
我们将购买一些仅用于 Hadoop 集群的新硬件,但我们仍然坚持应该购买什么。假设我们有 5000 美元的预算,我们应该购买两台 2500 美元/台的超级好机器,四台 1200 美元左右的机器,还是八台 600 美元左右的机器?hadoop 会在更慢的机器或最少的更快的机器上更好地工作吗?或者,就像大多数事情一样“取决于”?:-)
hadoop - 如何在 Hadoop Streaming 作业上设置 Priority\Pool?
如何设置 Hadoop Streaming 作业的 Priority\Pool?它可能是一个命令行 jobconf 参数(例如 -jobconf something=pool.name),但我无法在网上找到任何文档...
hadoop - HBase 是否稳定且可用于生产?
对于已经在自己的集群上部署 HBase 的人,您是否觉得它对于生产使用足够稳定?您遇到了哪些类型的麻烦或问题?
我确实看到很多公司在生产中使用 HBase ( http://wiki.apache.org/hadoop/Hbase/PoweredBy ),但我很好奇是否需要进行大量维护、修补和防火练习保持 HBase 集群正常运行。
hadoop - 将数据输入和输出 hadoop
我需要一个系统来分析大型日志文件。前几天一位朋友指导我使用 hadoop,它似乎非常适合我的需求。我的问题围绕着将数据导入hadoop-
当我的集群上的节点将数据输入 HDFS 时,是否可以让它们流式传输数据?还是每个节点都需要写入本地临时文件并在临时文件达到一定大小后提交?是否可以附加到 HDFS 中的文件,同时在同一文件上运行查询/作业?
hadoop - 在 Hadoop 中处理带有标头的文件
我想在 Hadoop 中处理很多文件——每个文件都有一些头信息,然后是很多记录,每个记录都存储在固定数量的字节中。对此有何建议?
hadoop - HBase 分布式扫描器
在 HBase 文档的“入门”页面上的“API 使用示例”中,有一个扫描仪使用示例:
扫描仪扫描仪 = table.getScanner(new String[]{"myColumnFamily:columnQualifier1"});
}
据我了解,此代码将在一台机器(名称节点)上执行,并且不会分发所有扫描和过滤工作。仅分发数据存储和数据加载。如何使用分布式扫描仪,它将在每个节点上单独工作。
快速数据过滤的最佳实践是什么?谢谢。
jdbc - hadoop 蜂巢问题
我正在尝试使用 JDBC 务实地创建表。但是,我真的看不到我从 hive shell 创建的表。更糟糕的是,当我从不同的目录访问 hive shell 时,我看到了不同的数据库结果。我需要配置什么设置吗?
提前致谢。