问题标签 [giraph]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 YARN 集群上运行 Apache Giraph 时出现问题 (Hadoop 2.5.2)
我正在尝试在 Hadoop 2.5.2 上使用 Giraph 1.1 运行基本的 ShortestPaths 示例。我在实际的集群模型中运行(例如,不是伪分布式),我可以运行标准的 mapreduce 作业。但是当我尝试运行 Giraph 示例时,它似乎挂起,除非我设置
并相应地将工人数设置为 1。但这有点违背了在集群上运行的意义,不是吗?OTOH,如果我在不禁用 SplitMasterWorker 的情况下运行,我会收到以下错误:
这表明 Girpah 默认为本地模式。我读过的一份报告建议通过添加来解决这个问题
-ca mapred.job.tracker=10.0.0.12:5431
到 Girpah 命令行,但是在带有 YARN 的 Hadoop 2.5.2 上,如果我理解正确的话,端口 5431 上没有 JobTracker。无论如何,如果我确实添加了那一点,作业会尝试运行,但似乎没有完成就挂起。这是完整的命令行,作业输出如下:
hadoop - java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class is expected 安装示例
我从http://giraph.apache.org/quick_start.html#qs_section_2运行示例 成功安装 Giraph 后,我创建文件 /tmp/tiny_graph.txt 并运行
我收到一个错误
我当前的版本是 Giraph 1.2.0 Hadoop 2.6.0
我能做些什么来解决这个问题?
java - Giraph 估计的 4096MB 集群堆请求大于当前可用的集群堆 0MB。中止作业
我在 5 节点集群上使用 Hadoop 2.5.2 运行 Giraph。但是当我尝试运行 SimpleShortestPathsComputation 示例时,我得到了这个错误:
线程“main”java.lang.IllegalStateException 中的异常:Giraph 的估计集群堆 2000MB 请求大于当前可用的集群堆 0MB。中止作业。
到目前为止,我一直无法确定 Giraph 认为集群有 0MB 堆的原因。我分别在 yarn-env.sh 和 hadoop-env.sh 中设置了 YARN_HEAPSIZE 和 HADOOP_HEAPSIZE,在 yarn-site.xml 我有:
知道这是怎么回事吗?
java - Giraph 工作永无止境
我正在尝试使用最新的 Giraph 代码和 Hadoop 2.5.2 运行 SimpleShortestPathsComputation 示例。我的命令行如下所示:
这项工作似乎可以开始了。但是随后它开始输出这些类型的消息,并且这只会(似乎)永远持续下去,直到您 ctrl+c 它。
知道这里发生了什么吗?
java - 无法找到或加载主类 org.apache.giraph.yarn.GiraphApplicationMaster
我正在尝试让 Giraph 在 YARN 集群(Hadoop 2.5.2)上运行,但我是否遇到了这个错误:
我已经尝试了我在以前有关此主题的消息中可以找到的所有内容,但无济于事。我的命令行是这样的:
我检查了这些 jar 是否位于集群中每个节点上的这些位置。此外,我已验证 jar 文件确实包含 GiraphApplicationMaster.class。然而它仍然抱怨找不到 GiraphApplicationMaster。
有什么想法可能导致问题或任何解决方法?我考虑将 Giraph jar 分发到每个节点并将它们物理地放在 Hadoop 类路径上,但 Maven 构建默认构建胖 jar,这可能会导致问题。还有其他建议或想法吗?
maven - 如何配置 GIRAPH 1.1.0 pom.xml 以使其与 HADOOP 2.6.0 一起使用?安装错误
我正在尝试将 GIRAPH 1.1.0 添加到 HADOOP 2.6.0
我必须以某种方式编辑 pom.xml 才能正确打包 GIRAPH。我运行命令mvn -Phadoop_yarn -Dhadoop.version=2.6.0 package
我在 (1292) 行中编辑了默认的 pom.xml 文件:
但是当我运行它给出的命令时
我的问题是应该如何修改 pom.xml 以使其与 hadoop 2.6.0 一起使用?
titan - Gremlin - Giraph - GraphX ?在 TitanDb 上
我需要一些帮助来确认我的选择...并了解您是否可以给我一些信息。我的存储数据库是带有 Cassandra 的 TitanDb。我有一个非常大的图表。我的目标是在后者的图表上使用 Mllib。
我的第一个想法:将 Titan 与 GraphX 一起使用,但我没有发现任何东西或正在进行开发...... TinkerPop 还没有准备好。所以我看看 Giraph。TinkerPop,Titan 可以通过 TinkerPop 与 Rexster 交流。
我的问题是:使用 Giraph 有什么好处?Gremlin 似乎也有同样的想法并且是分布式的。
非常感谢您向我解释。我想我不太了解 Gremlin 和 Giraph(或 GraphX)之间的区别。
祝你今天过得愉快。
hadoop - PageRankBenchmark - 减少到 0% - Giraph 示例
我正在使用 PageRankBenchmark 示例测试我的单节点集群 Giraph 安装,方法如下:
但是在映射器完成他们的工作之后,reducer 不会启动(根据控制台,map 100% reduce 0%)。这是该算法的适当行为吗?
如果一个 mapper 被执行,reducer 必须开始将 map 的输出作为输入并完成工作(至少,在互联网上许多 PageRank 算法的其他实现中,总是有一个“Reducer”)。但是我用谷歌搜索它,并且总是 PageRankBenchmark giraph 示例在该算法的几个结果中以 Reduce 结尾,由其他人运行。
所以,我现在不知道在 PageRankBenchmark 中是否可以,我希望有人可以在这里帮助我;)
我正在使用 hadoop 2.4,带有 Phadoop_yarn 配置文件和 Giraph 1.1.0。
根据我阅读的其他几个问题,“减少 0% 卡住”问题的主要问题,它可能在映射器日志中,但我在那里找不到任何东西(我也在附上它们)。
这是我的日志:
干杯!
json - 如何为 Apache Giraph 提供简单的边缘列表格式
我正在尝试使用 Hadoop 在 Apache Giraph 上运行斯坦福网络分析程序 (SNAP) 图。该链接在下面提供http://snap.stanford.edu/snap/
目前我正在尝试运行简单边缘列表格式 source_id destination_id 的 facebook 图。链接是:http ://snap.stanford.edu/data/egones-Facebook.html
我无法确定 Apache Giraph 接受哪种格式来运行 SimpleShortestPathsCompute 或任何其他 Java 程序来接受简单边缘列表格式的输入。
我成功地运行了 SimpleShortestPathsCompute 和 PageRankComputation 算法,它们位于 Giraph 包的示例文件夹中,用于 JSON 格式的输入文件。[source_id, source_value, [[destination_id, edge_value], [destination_id, edge_value],..]]
giraph - Apache Giraph:每个分区处理的顶点数
我是一个新手,试图了解 Giraph 1.2.0 的工作原理。使用 hadoop 1.2.1。
有没有办法计算出每个映射器处理的顶点数?