问题标签 [hama]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

apache - EC2上的apache hama通过whirr 0.8

我正在尝试查看 Apache Hama,并按照http://hama.apache.org/hama_on_clouds.html中的说明下载了 whirr 0.8.2 但在此版本中没有任何 hama-ec2.properties文件夹食谱,因此我无法尝试。

在此版本中删除此文件是否有原因,并且有另一种方法可以通过 EC2 上的 whirr 尝试 hama。

谢谢你的帮助

0 投票
0 回答
305 浏览

matrix - 使用 apache hama 的大矩阵乘法

我正在尝试为其转置 A' 乘以密集矩阵 A。该矩阵大约有 200 万行和 400 列。我在 hadoop map reduce 中实现了乘法,但由于作业的非本地性,它运行得太慢(每条记录必须乘以其他每条记录)。因此,我正在尝试使用 Apache Hama 进行乘法运算。有一个名为 DenseDoubleMatrix 的类,但我认为它没有用,因为它似乎没有使用 bsp 在集群中分布计算。

是否已经在 Hama 中实现了用于矩阵乘法的任何其他工具,还是我必须使用 bsp 模型自己实现它?

0 投票
1 回答
153 浏览

apache - apache hama 是否适合实施 adaboost 算法?

我对在 hadoop 环境中实现 adaboost 算法很感兴趣。我研究过由于缺乏原生迭代支持,mapreduce 可能会很慢。Apache hama 是一个有趣的替代方案,但是 apache hama 是否有任何特性不允许有效地实现 adaboost?

0 投票
2 回答
1865 浏览

apache - Mapreduce 和 apache 的 hama 的主要区别是什么?

嗨,我发现很难将 mapreduce 与 hama 进行比较,我知道 hama 使用这种批量同步并行模型,并且工作节点可以相互通信,而在 apache 的 hadoop 中,工作节点只能与 namenode 通信,对吗?如果是这样,我不明白 hama 对 hadoop 中的标准 mapreduce 有什么好处,谢谢!

0 投票
1 回答
74 浏览

java - 如何从终端运行我的 Apache hama 的 java 源代码

我安装了 Apache Hama,我可以从 Eclipse 中调用它,它工作正常。我怎么能从 unix 终端运行同样的东西。

当我跑

我收到错误

0 投票
2 回答
300 浏览

java - ubuntu 14.04上的apache hama安装错误

我想使用hama安装指南安装和运行hama,在整个过程中使用端口号54310,但是当我想在hama上运行一些示例时,它给了我一个错误。即重试连接服务器:localhost/127.0.0.1:40000

这是我的 hama-site.xml

我已经启动了 HDFS,这是运行 PI 示例后的错误消息。

0 投票
1 回答
40 浏览

hadoop - 如何在Hadoop中处理一个大文件?

这是一个菜鸟问题

我有一个 hadoop 设置并考虑使用 Giraph 或 Hama 进行基于图形的计算。我的表格中有一个大文件

3 4 3 7 3 8 5 6

其中每一列表示顶点,每一行表示边。对于普通程序,我将整个文件读入如下形式

3:[4,7,8] 5:[6]

这意味着顶点 3 的边数为 4、7、8,而 5 的边数为 6。

如何处理 Hadoop 中大文件的这种情况?像这样阅读意味着将全部内容加载到 RAM 中?在 Hadoop 中执行此操作的最佳方法是什么?

0 投票
0 回答
30 浏览

partitioning - 哈马的广度优先搜索

我正在 Apache hama 中做一个项目以实现广度优先搜索,并且在划分输入图时遇到了麻烦。有人可以建议一种方法来做同样的事情吗?

这里使用的分区器是

由于我们不能将 Hashpartitioner 用于 bfs,任何人都可以提出替代方法吗?

0 投票
0 回答
38 浏览

breadth-first-search - 使用 Hama 实现广度优先搜索

我做了一些研究,但似乎遗漏了一小部分。我了解广度优先搜索的工作原理,但我不明白如何对节点进行分区以便可以使用 hama 并行计算它。有没有有什么方法吗?

0 投票
0 回答
157 浏览

apache-spark - Spark的内部工作 - 通信/同步

我对 Spark 很陌生,但已经有 BSP 模型的编程经验。在 BSP 模型中(例如 Apache Hama),我们必须自己处理所有节点的通信和同步。这一方面是好的,因为我们可以更好地控制我们想要实现的目标,但另一方面它增加了更多的复杂性。

另一方面,Spark 拥有所有控制权并自行处理所有事情(这很棒),但我不明白它是如何在内部工作的,尤其是在我们在节点之间传递大量数据和消息的情况下。让我举个例子

这是一种取自此处的方法,它循环运行(比如说 200 次)。x_i 包含我们的数据(假设有 100,000 个条目)。

在 BSP 风格的程序中,如果我们必须处理这个映射操作,我们将把这些数据分区并分布在多个节点上。每个节点将处理子部分数据(映射操作)并将结果返回给主节点(在屏障同步之后)。由于主节点想要处理返回的每个单独的结果(集中式主节点-见下图),我们将每个条目的结果发送给主节点(Spark 中的reduce运算符)。因此,()master 在每次迭代后收到 100,000 条消息。它处理这些数据并再次将新值发送到从站,从站再次开始处理下一次迭代。

现在,由于 Spark 从用户那里获得控制权并在内部完成所有操作,我无法理解 Spark 在 map 操作之后如何收集所有数据(异步消息传递?我听说它有 p2p 消息传递?map 任务之间的同步呢?如果有的话同步,那么说Spark其实是BSP模型对吗?)。然后为了应用reduce函数,它是在中央机器上收集所有数据(如果是,它是否在单台机器上接收100,000条消息?)还是以分布式方式减少(如果是,那么这怎么可能?执行?)

下图显示了我在 master 上的 reduce 功能。x_i^k-1 表示针对我输入的 x_i 数据条目计算的第i个值(在之前的迭代中)。x_i^k 表示在当前迭代中计算的 x_i 的值。显然,这个方程需要收集结果。

在此处输入图像描述

我实际上想比较两种分布式编程风格,以了解何时使用 Spark 以及何时迁移到 BSP。此外,我在互联网上看了很多,我发现的只是 map/reduce 的工作原理,但在实际通信/同步方面没有任何有用的东西。任何有用的材料也将是有用的。