问题标签 [hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
9381 浏览

c# - Windows服务器上的Hadoop

我正在考虑使用 hadoop 在我现有的 windows 2003 服务器上处理大型文本文件(大约 10 台四核机器和 16gb 的 RAM)

问题是:

  1. 有没有关于如何在 Windows 上配置 hadoop 集群的好教程?

  2. 有什么要求?java + cygwin + sshd ?还要别的吗?

  3. HDFS,它在 Windows 上玩得好吗?

  4. 我想在流模式下使用 hadoop。在 C# 中开发我自己的映射器/减速器有什么建议、工具或技巧吗?

  5. 您使用什么来提交和监控作业?

谢谢

0 投票
3 回答
25798 浏览

amazon-web-services - 亚马逊 S3 架构

虽然@http://highscalability.com/amazon-architecture的帖子总体上解释了 Amazon 的架构,但我有兴趣了解 Amazon S3 是如何实现的。

我的一些猜测是

  1. 像 HDFS 这样的分布式文件系统 http://hadoop.apache.org/core/docs/current/hdfs_design.html
  2. 一个非关系持久数据库,如 CouchDB http://couchdb.apache.org/

是否可以使用 Python 或 PHP 等脚本语言在更小范围内实现类似的功能?

0 投票
2 回答
6308 浏览

database-design - Hadoop Hbase:是否跨表传播列族

Hbase 文档清楚地表明您应该将类​​似的列分组到列族中,因为物理存储是由列族完成的。

但是,将两个列族放入同一个表中,而不是每个列组有单独的表,这意味着什么?是否存在以这种方式“分区”表更有意义的特定情况,以及一个“宽”表效果更好的情况?

单独的表应该导致单独的“行区域”,当某些列族(作为一个整体)非常稀疏时,这可能是有益的。相反,什么时候将列族聚集在一起是有利的?

0 投票
8 回答
2616 浏览

hadoop - AWS 上的 MapReduce

有人在 AWS 上玩过 MapReduce 吗?有什么想法吗?执行情况如何?

0 投票
1 回答
383 浏览

.net - 在 .NET 云中运行分布式计算的框架

我正在考虑开发一个框架来简化在Windows Azure的 .NET 云环境中运行的分布式计算。

Azure 目前(很可能在发布时)完全不适合在云中简单地运行分布式查询(详细信息)。对我来说很简单,比如DryadLINQ,您可以在其中编写查询:

并让它在集群中的多台机器上远程执行。无需担心部署、存储或配置。

您可以建议查看哪些资源、论文或开源项目以获取有关该主题的更多信息(尤其是调度和 DAG 优化)?

到目前为止,我一直在研究 Hadoop(由 Amazon Elastic Map Reduce 使用)和 DryadLINQ。显然,这包括谷歌搜索。

0 投票
2 回答
2904 浏览

macos - java.io.IOException:作业失败!使用 hadoop-0.19.1 在我的 osx 上运行示例应用程序时

有谁知道为什么会这样?同样的工作在 linux 机器上运行得很好。并且,在“作业失败”发生后,整个 Hadoop 集群停止响应。

我的 MacOS 版本是 10.5.6。

编辑hadoop-0.20.1 的相同结果

0 投票
2 回答
206 浏览

hadoop - org.apache.hadoop.mapred.Mapper 中的“key K1”有什么用?

我正在学习 Apache Hadoop,并且正在查看 WordCount 示例org.apache.hadoop.examples.WordCount。我已经理解这个例子,但是我可以看到变量LongWritable 键没有用于

这个变量有什么用?有人可以给我一个简单的例子吗?谢谢

0 投票
3 回答
3298 浏览

configuration - Hadoop:从 HDFS 映射/减少

我可能错了,但是我在 Apache Hadoop 中看到的所有(?)示例都将存储在本地文件系统上的文件(例如 org.apache.hadoop.examples.Grep)作为输入

有没有办法在 Hadoop 文件系统 (HDFS) 上加载和保存数据?例如,我在 HDFS 上使用了一个名为“stored.xls”的制表符分隔文件hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls。我应该如何配置 JobConf 来阅读它?

谢谢 。

0 投票
3 回答
1898 浏览

storage - 实施大规模日志文件分析

谁能指出我的参考资料或提供有关 Facebook、Yahoo、Google 等公司如何执行他们为运营特别是 Web 分析执行的大规模(例如多 TB 范围)日志分析的高级概述?

特别关注网络分析,我对两个密切相关的方面感兴趣:查询性能和数据存储。

我知道一般的方法是使用 map reduce 将每个查询分布在一个集群上(例如使用 Hadoop)。但是,最有效的存储格式是什么?这是日志数据,因此我们可以假设每个事件都有一个时间戳,并且通常数据是结构化的而不是稀疏的。大多数 Web 分析查询涉及分析两个任意时间戳之间的数据切片并检索该数据中的聚合统计信息或异常情况。

像 Big Table(或 HBase)这样的面向列的数据库会是一种有效的方式来存储,更重要的是,查询这些数据吗?您选择行子集(基于时间戳)的事实是否违背了这种存储类型的基本前提?将其存储为非结构化数据会更好,例如。反向索引?

0 投票
2 回答
405 浏览

hadoop - hadoop 幕后

有人可以根据软件背后的想法解释什么是 hadoop 吗?是什么让它如此受欢迎和/或强大?