“hama”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

107 浏览

apache - EC2上的apache hama通过whirr 0.8

我正在尝试查看 Apache Hama，并按照http://hama.apache.org/hama_on_clouds.html中的说明下载了 whirr 0.8.2 但在此版本中没有任何 hama-ec2.properties文件夹食谱，因此我无法尝试。

在此版本中删除此文件是否有原因，并且有另一种方法可以通过 EC2 上的 whirr 尝试 hama。

谢谢你的帮助

2014-02-20T21:28:40.483

0 投票

0 回答

305 浏览

matrix - 使用 apache hama 的大矩阵乘法

我正在尝试为其转置 A' 乘以密集矩阵 A。该矩阵大约有 200 万行和 400 列。我在 hadoop map reduce 中实现了乘法，但由于作业的非本地性，它运行得太慢（每条记录必须乘以其他每条记录）。因此，我正在尝试使用 Apache Hama 进行乘法运算。有一个名为 DenseDoubleMatrix 的类，但我认为它没有用，因为它似乎没有使用 bsp 在集群中分布计算。

是否已经在 Hama 中实现了用于矩阵乘法的任何其他工具，还是我必须使用 bsp 模型自己实现它？

matrix matrix-multiplication hama

2014-02-26T11:39:32.027

0 投票

1 回答

153 浏览

apache - apache hama 是否适合实施 adaboost 算法？

我对在 hadoop 环境中实现 adaboost 算法很感兴趣。我研究过由于缺乏原生迭代支持，mapreduce 可能会很慢。Apache hama 是一个有趣的替代方案，但是 apache hama 是否有任何特性不允许有效地实现 adaboost？

apache hadoop bigdata adaboost hama

2014-03-27T18:53:54.300

0 投票

2 回答

1865 浏览

apache - Mapreduce 和 apache 的 hama 的主要区别是什么？

嗨，我发现很难将 mapreduce 与 hama 进行比较，我知道 hama 使用这种批量同步并行模型，并且工作节点可以相互通信，而在 apache 的 hadoop 中，工作节点只能与 namenode 通信，对吗？如果是这样，我不明白 hama 对 hadoop 中的标准 mapreduce 有什么好处，谢谢！

apache hadoop mapreduce hama bulk-synchronous-parallel

2014-05-03T21:26:31.843

0 投票

1 回答

74 浏览

java - 如何从终端运行我的 Apache hama 的 java 源代码

我安装了 Apache Hama，我可以从 Eclipse 中调用它，它工作正常。我怎么能从 unix 终端运行同样的东西。

当我跑

我收到错误

java unix hadoop debian hama

2014-05-08T16:28:50.723

0 投票

2 回答

300 浏览

java - ubuntu 14.04上的apache hama安装错误

我想使用hama安装指南安装和运行hama，在整个过程中使用端口号54310，但是当我想在hama上运行一些示例时，它给了我一个错误。即重试连接服务器：localhost/127.0.0.1:40000

这是我的 hama-site.xml

我已经启动了 HDFS，这是运行 PI 示例后的错误消息。

java apache hadoop hama

2014-05-28T13:19:47.840

0 投票

1 回答

40 浏览

hadoop - 如何在Hadoop中处理一个大文件？

这是一个菜鸟问题

我有一个 hadoop 设置并考虑使用 Giraph 或 Hama 进行基于图形的计算。我的表格中有一个大文件

3 4 3 7 3 8 5 6

其中每一列表示顶点，每一行表示边。对于普通程序，我将整个文件读入如下形式

3：[4,7,8] 5：[6]

这意味着顶点 3 的边数为 4、7、8，而 5 的边数为 6。

如何处理 Hadoop 中大文件的这种情况？像这样阅读意味着将全部内容加载到 RAM 中？在 Hadoop 中执行此操作的最佳方法是什么？

hadoop giraph hama

2014-06-12T02:58:30.800

0 投票

0 回答

30 浏览

partitioning - 哈马的广度优先搜索

我正在 Apache hama 中做一个项目以实现广度优先搜索，并且在划分输入图时遇到了麻烦。有人可以建议一种方法来做同样的事情吗？

这里使用的分区器是

由于我们不能将 Hashpartitioner 用于 bfs，任何人都可以提出替代方法吗？

partitioning breadth-first-search hama

2015-03-24T09:39:22.913

0 投票

0 回答

38 浏览

breadth-first-search - 使用 Hama 实现广度优先搜索

我做了一些研究，但似乎遗漏了一小部分。我了解广度优先搜索的工作原理，但我不明白如何对节点进行分区以便可以使用 hama 并行计算它。有没有有什么方法吗？

breadth-first-search bsp hama

2015-03-24T16:35:12.193

0 投票

0 回答

157 浏览

apache-spark - Spark的内部工作 - 通信/同步

我对 Spark 很陌生，但已经有 BSP 模型的编程经验。在 BSP 模型中（例如 Apache Hama），我们必须自己处理所有节点的通信和同步。这一方面是好的，因为我们可以更好地控制我们想要实现的目标，但另一方面它增加了更多的复杂性。

另一方面，Spark 拥有所有控制权并自行处理所有事情（这很棒），但我不明白它是如何在内部工作的，尤其是在我们在节点之间传递大量数据和消息的情况下。让我举个例子

这是一种取自此处的方法，它循环运行（比如说 200 次）。x_i 包含我们的数据（假设有 100,000 个条目）。

在 BSP 风格的程序中，如果我们必须处理这个映射操作，我们将把这些数据分区并分布在多个节点上。每个节点将处理子部分数据（映射操作）并将结果返回给主节点（在屏障同步之后）。由于主节点想要处理返回的每个单独的结果（集中式主节点-见下图），我们将每个条目的结果发送给主节点（Spark 中的reduce运算符）。因此，（仅）master 在每次迭代后收到 100,000 条消息。它处理这些数据并再次将新值发送到从站，从站再次开始处理下一次迭代。

现在，由于 Spark 从用户那里获得控制权并在内部完成所有操作，我无法理解 Spark 在 map 操作之后如何收集所有数据（异步消息传递？我听说它有 p2p 消息传递？map 任务之间的同步呢？如果有的话同步，那么说Spark其实是BSP模型对吗？）。然后为了应用reduce函数，它是在中央机器上收集所有数据（如果是，它是否在单台机器上接收100,000条消息？）还是以分布式方式减少（如果是，那么这怎么可能？执行？）

下图显示了我在 master 上的 reduce 功能。x_i^k-1 表示针对我输入的 x_i 数据条目计算的第i个值（在之前的迭代中）。x_i^k 表示在当前迭代中计算的 x_i 的值。显然，这个方程需要收集结果。

我实际上想比较两种分布式编程风格，以了解何时使用 Spark 以及何时迁移到 BSP。此外，我在互联网上看了很多，我发现的只是 map/reduce 的工作原理，但在实际通信/同步方面没有任何有用的东西。任何有用的材料也将是有用的。

apache-spark mapreduce hama

2016-02-06T12:32:35.180

问题标签 [hama]

Reference