问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Windows服务器上的Hadoop
我正在考虑使用 hadoop 在我现有的 windows 2003 服务器上处理大型文本文件(大约 10 台四核机器和 16gb 的 RAM)
问题是:
有没有关于如何在 Windows 上配置 hadoop 集群的好教程?
有什么要求?java + cygwin + sshd ?还要别的吗?
HDFS,它在 Windows 上玩得好吗?
我想在流模式下使用 hadoop。在 C# 中开发我自己的映射器/减速器有什么建议、工具或技巧吗?
您使用什么来提交和监控作业?
谢谢
amazon-web-services - 亚马逊 S3 架构
虽然@http://highscalability.com/amazon-architecture的帖子总体上解释了 Amazon 的架构,但我有兴趣了解 Amazon S3 是如何实现的。
我的一些猜测是
- 像 HDFS 这样的分布式文件系统 http://hadoop.apache.org/core/docs/current/hdfs_design.html
- 一个非关系持久数据库,如 CouchDB http://couchdb.apache.org/
是否可以使用 Python 或 PHP 等脚本语言在更小范围内实现类似的功能?
database-design - Hadoop Hbase:是否跨表传播列族
Hbase 文档清楚地表明您应该将类似的列分组到列族中,因为物理存储是由列族完成的。
但是,将两个列族放入同一个表中,而不是每个列组有单独的表,这意味着什么?是否存在以这种方式“分区”表更有意义的特定情况,以及一个“宽”表效果更好的情况?
单独的表应该导致单独的“行区域”,当某些列族(作为一个整体)非常稀疏时,这可能是有益的。相反,什么时候将列族聚集在一起是有利的?
hadoop - AWS 上的 MapReduce
有人在 AWS 上玩过 MapReduce 吗?有什么想法吗?执行情况如何?
macos - java.io.IOException:作业失败!使用 hadoop-0.19.1 在我的 osx 上运行示例应用程序时
有谁知道为什么会这样?同样的工作在 linux 机器上运行得很好。并且,在“作业失败”发生后,整个 Hadoop 集群停止响应。
我的 MacOS 版本是 10.5.6。
编辑hadoop-0.20.1 的相同结果
hadoop - org.apache.hadoop.mapred.Mapper 中的“key K1”有什么用?
我正在学习 Apache Hadoop,并且正在查看 WordCount 示例org.apache.hadoop.examples.WordCount。我已经理解这个例子,但是我可以看到变量LongWritable 键没有用于
这个变量有什么用?有人可以给我一个简单的例子吗?谢谢
configuration - Hadoop:从 HDFS 映射/减少
我可能错了,但是我在 Apache Hadoop 中看到的所有(?)示例都将存储在本地文件系统上的文件(例如 org.apache.hadoop.examples.Grep)作为输入
有没有办法在 Hadoop 文件系统 (HDFS) 上加载和保存数据?例如,我在 HDFS 上使用了一个名为“stored.xls”的制表符分隔文件hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls
。我应该如何配置 JobConf 来阅读它?
谢谢 。
storage - 实施大规模日志文件分析
谁能指出我的参考资料或提供有关 Facebook、Yahoo、Google 等公司如何执行他们为运营特别是 Web 分析执行的大规模(例如多 TB 范围)日志分析的高级概述?
特别关注网络分析,我对两个密切相关的方面感兴趣:查询性能和数据存储。
我知道一般的方法是使用 map reduce 将每个查询分布在一个集群上(例如使用 Hadoop)。但是,最有效的存储格式是什么?这是日志数据,因此我们可以假设每个事件都有一个时间戳,并且通常数据是结构化的而不是稀疏的。大多数 Web 分析查询涉及分析两个任意时间戳之间的数据切片并检索该数据中的聚合统计信息或异常情况。
像 Big Table(或 HBase)这样的面向列的数据库会是一种有效的方式来存储,更重要的是,查询这些数据吗?您选择行子集(基于时间戳)的事实是否违背了这种存储类型的基本前提?将其存储为非结构化数据会更好,例如。反向索引?
hadoop - hadoop 幕后
有人可以根据软件背后的想法解释什么是 hadoop 吗?是什么让它如此受欢迎和/或强大?