问题标签 [hama]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - EC2上的apache hama通过whirr 0.8
我正在尝试查看 Apache Hama,并按照http://hama.apache.org/hama_on_clouds.html中的说明下载了 whirr 0.8.2 但在此版本中没有任何 hama-ec2.properties文件夹食谱,因此我无法尝试。
在此版本中删除此文件是否有原因,并且有另一种方法可以通过 EC2 上的 whirr 尝试 hama。
谢谢你的帮助
matrix - 使用 apache hama 的大矩阵乘法
我正在尝试为其转置 A' 乘以密集矩阵 A。该矩阵大约有 200 万行和 400 列。我在 hadoop map reduce 中实现了乘法,但由于作业的非本地性,它运行得太慢(每条记录必须乘以其他每条记录)。因此,我正在尝试使用 Apache Hama 进行乘法运算。有一个名为 DenseDoubleMatrix 的类,但我认为它没有用,因为它似乎没有使用 bsp 在集群中分布计算。
是否已经在 Hama 中实现了用于矩阵乘法的任何其他工具,还是我必须使用 bsp 模型自己实现它?
apache - apache hama 是否适合实施 adaboost 算法?
我对在 hadoop 环境中实现 adaboost 算法很感兴趣。我研究过由于缺乏原生迭代支持,mapreduce 可能会很慢。Apache hama 是一个有趣的替代方案,但是 apache hama 是否有任何特性不允许有效地实现 adaboost?
apache - Mapreduce 和 apache 的 hama 的主要区别是什么?
嗨,我发现很难将 mapreduce 与 hama 进行比较,我知道 hama 使用这种批量同步并行模型,并且工作节点可以相互通信,而在 apache 的 hadoop 中,工作节点只能与 namenode 通信,对吗?如果是这样,我不明白 hama 对 hadoop 中的标准 mapreduce 有什么好处,谢谢!
java - 如何从终端运行我的 Apache hama 的 java 源代码
我安装了 Apache Hama,我可以从 Eclipse 中调用它,它工作正常。我怎么能从 unix 终端运行同样的东西。
当我跑
我收到错误
java - ubuntu 14.04上的apache hama安装错误
我想使用hama安装指南安装和运行hama,在整个过程中使用端口号54310,但是当我想在hama上运行一些示例时,它给了我一个错误。即重试连接服务器:localhost/127.0.0.1:40000
这是我的 hama-site.xml
我已经启动了 HDFS,这是运行 PI 示例后的错误消息。
hadoop - 如何在Hadoop中处理一个大文件?
这是一个菜鸟问题
我有一个 hadoop 设置并考虑使用 Giraph 或 Hama 进行基于图形的计算。我的表格中有一个大文件
3 4 3 7 3 8 5 6
其中每一列表示顶点,每一行表示边。对于普通程序,我将整个文件读入如下形式
3:[4,7,8] 5:[6]
这意味着顶点 3 的边数为 4、7、8,而 5 的边数为 6。
如何处理 Hadoop 中大文件的这种情况?像这样阅读意味着将全部内容加载到 RAM 中?在 Hadoop 中执行此操作的最佳方法是什么?
partitioning - 哈马的广度优先搜索
我正在 Apache hama 中做一个项目以实现广度优先搜索,并且在划分输入图时遇到了麻烦。有人可以建议一种方法来做同样的事情吗?
这里使用的分区器是
由于我们不能将 Hashpartitioner 用于 bfs,任何人都可以提出替代方法吗?
breadth-first-search - 使用 Hama 实现广度优先搜索
我做了一些研究,但似乎遗漏了一小部分。我了解广度优先搜索的工作原理,但我不明白如何对节点进行分区以便可以使用 hama 并行计算它。有没有有什么方法吗?
apache-spark - Spark的内部工作 - 通信/同步
我对 Spark 很陌生,但已经有 BSP 模型的编程经验。在 BSP 模型中(例如 Apache Hama),我们必须自己处理所有节点的通信和同步。这一方面是好的,因为我们可以更好地控制我们想要实现的目标,但另一方面它增加了更多的复杂性。
另一方面,Spark 拥有所有控制权并自行处理所有事情(这很棒),但我不明白它是如何在内部工作的,尤其是在我们在节点之间传递大量数据和消息的情况下。让我举个例子
这是一种取自此处的方法,它循环运行(比如说 200 次)。x_i 包含我们的数据(假设有 100,000 个条目)。
在 BSP 风格的程序中,如果我们必须处理这个映射操作,我们将把这些数据分区并分布在多个节点上。每个节点将处理子部分数据(映射操作)并将结果返回给主节点(在屏障同步之后)。由于主节点想要处理返回的每个单独的结果(集中式主节点-见下图),我们将每个条目的结果发送给主节点(Spark 中的reduce运算符)。因此,(仅)master 在每次迭代后收到 100,000 条消息。它处理这些数据并再次将新值发送到从站,从站再次开始处理下一次迭代。
现在,由于 Spark 从用户那里获得控制权并在内部完成所有操作,我无法理解 Spark 在 map 操作之后如何收集所有数据(异步消息传递?我听说它有 p2p 消息传递?map 任务之间的同步呢?如果有的话同步,那么说Spark其实是BSP模型对吗?)。然后为了应用reduce函数,它是在中央机器上收集所有数据(如果是,它是否在单台机器上接收100,000条消息?)还是以分布式方式减少(如果是,那么这怎么可能?执行?)
下图显示了我在 master 上的 reduce 功能。x_i^k-1 表示针对我输入的 x_i 数据条目计算的第i个值(在之前的迭代中)。x_i^k 表示在当前迭代中计算的 x_i 的值。显然,这个方程需要收集结果。
我实际上想比较两种分布式编程风格,以了解何时使用 Spark 以及何时迁移到 BSP。此外,我在互联网上看了很多,我发现的只是 map/reduce 的工作原理,但在实际通信/同步方面没有任何有用的东西。任何有用的材料也将是有用的。