问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - 有 Hadoop 经验吗?
你们中有人尝试过Hadoop吗?它可以在没有与之配套的分布式文件系统的情况下在无共享架构中使用吗?这有意义吗?
我也对您的任何性能结果感兴趣...
hadoop - Hive 与 HBase 相比如何?
我有兴趣了解最近发布的 ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive 在性能方面与 HBase 的比较。Hive 使用的类 SQL 接口比我们实现的 HBase API 更可取。
hadoop - Hbase / Hadoop 查询帮助
我正在和一个朋友一起做一个项目,该项目将利用 Hbase 来存储它的数据。有没有好的查询示例?我似乎正在编写大量 Java 代码来遍历 RowResult 的列表,而在 SQL 领域,我可以编写一个简单的查询。我错过了什么吗?还是 Hbase 缺少什么?
hadoop - 是否可以在 Erlang 中执行任意数据分析?
我想回答有关 Erlang 中数据的问题:计数、关联消息、提供任意统计信息。我曾考虑过为此求助于 Hadoop,但是是否有可能在原始 Erlang 中构建一个解决方案来进行相当任意的数据分析,不一定通过 map/reduce 而是以某种方式?我已经看到有人这样做的一些提示,但没有明确的博客文章或这样做的示例。我知道 Powerset 的自然语言功能是用 Erlang 编写的。我也知道 CouchDB,但一直在寻找其他解决方案。
hadoop - 您如何使用 MapReduce/Hadoop?
我正在寻找一些关于其他人如何使用Hadoop或其他类似 MapReduce 的技术的一般信息。一般来说,我很好奇您是在编写 MR 应用程序来处理现有数据集(如 Web 服务器日志文件),还是在编写生成和处理新数据集的应用程序?
编辑: 后续问题
(1) 您是否曾经针对其他 MR 程序生成的数据执行 MR 程序?
(2) 您是否需要使用 MR 修改现有数据集?
(3) 您是否曾与其他开发人员共享您的数据集?
c# - 是否有与 Apache Hadoop 等效的 .NET?
所以,我一直怀着浓厚的兴趣关注Hadoop,老实说,我很着迷,事情并没有变得更酷。
我唯一的小问题是我是一名 C# 开发人员,它使用 Java。
并不是说我不了解 Java,而是我正在寻找包含Google MapReduce方法的 Hadoop.net 或 NHadoop 或 .NET 项目。有人知道吗?
database - 大数据——存储和查询
我们有大约 3 亿条记录的庞大数据,每 3-6 个月更新一次。我们需要(连续、实时)查询这些数据以获取一些信息。有哪些选项 - RDBMS(mysql) 或其他一些选项,例如 Hadoop。哪个会更好?
rdbms - 如何设计 Hbase 架构?
假设我有这个 RDBM 表(Entity-attribute-value_model):
由于缩放问题,我想使用 HBase。
我知道访问 Hbase 表的唯一方法是使用主键(光标)。您可以获得特定键的游标,并逐个迭代行。
问题是,就我而言,我希望能够迭代所有 3 列。例如 :
- 对于给定的 entityID,我想获取它的所有属性和值
- 对于给定的属性名称和值,我想要所有的 entitiIDS ...
所以我的一个想法是构建一个 Hbase 表来保存数据(表 DATA,以 entityID 作为主索引),以及 2 个“索引”表,一个以 attributeName 作为主键,另一个以 value
每个索引表都将保存 DATA 表的指针(实体 ID)列表。
这是一个合理的方法吗?或者是 Hbase 概念的“滥用”?
HBase 允许通过主键获取操作并在行范围内扫描(想想:游标)。(如果你有二级索引的规模和需要,别担心 - Lucene 来拯救!但那是另一篇文章。)
您知道 Lucene 如何提供帮助吗?
——约纳坦
algorithm - 如何使用 MapReduce/Hadoop 实现特征值计算?
这是可能的,因为 PageRank 是特征值的一种形式,这就是引入 MapReduce 的原因。但在实际实现中似乎存在问题,比如每台从机都必须维护一份矩阵的副本?