问题标签 [giraph]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
giraph - 我们如何知道 Giraph 中使用的消息的价值
我们如何知道 SimpleShortestPathsComputation 中 message.get() 的值?
如果我们有Vertex<DoubleWritable, DoubleWritable, DoubleWritable> vertex
而不是
我们如何知道 Messages 的值是 MinDist 而不是 VertextID 或 EdgeValue?
谢谢
java - Giraph 的工作人员在接收顶点消息时会采取什么机制?
我很好奇,在 Giraph 的 worker API 文档中,我看到了关于这个方法的解释:
我知道他们在compute()
方法中使用了他们接受的消息,但是他们什么时候收到呢?如果是在检查点过程之前,我可以看到文档/代码中的任何部分来理解它吗?
另外,Giraph 在超级步 S+1 之前使用什么机制来存储消息?他们是先将其存储在缓冲区还是磁盘中?
我在 Giraph 文档中找不到任何关于此的内容。
hadoop - Giraph 最短路径示例
我在使用 tiny_graph.txt 运行给定示例 SimpleShortestPathsComputation 时遇到问题。在 Map 部分之后,我总是卡在 Reduce Part 的过程中。它总是向我显示 100% 的地图和 0% 的缩小并一直挂在那里。很难在 Web 中寻找解决方案。有没有人遇到过这个问题?顺便说一句,我的 hadoop 版本是 1.2.1,而 giraph 是 1.1.0。谢谢!
hadoop - 在 Hadoop 纱线 2.6.0 上运行 giraph
我正在尝试在hadoop 2.6.0
纱线上使用 Giraph。
我已经设法通过STATIC_SASL_SYMBOL
在<munge.symbols>
. yarn profile
使用命令:
然后我用 hadoop 2.6.0 设置了一个单节点集群,我能够执行基本的 wordcount 示例。我已将内置的 jar 复制到目录share/hadoop/mapreduce
中以删除GiraphMaster
未找到的执行。
现在我正在尝试SimpleShortestPaths
使用以下命令运行示例:
使用的数据是 giraph 快速启动页面上的小图,这项工作应该需要几分钟才能完成,但事实并非如此。
完整日志位于http://pastebin.com/CW1FnWz2
可以让 giraph 在 hadoop 2.6.0 上工作还是我必须使用早期版本?如果是这样,你会建议哪一个?
java - Giraph:自定义作业上未找到类异常
我正在使用 Giraph 开发一种算法。我正在Hadoop 1.2.1 上使用 1.0.0 版本。
我对开发 Giraph 还是很陌生,所以请保持温柔;)
我的自定义作业分为三个包:
- io:包含输入输出格式类
- layout:包含 Vertex 类、Aggregator 类和 MasterCompute 类。
- run:包含工具实现类。
我在 Eclipse 中使用构建的 giraph-core jar 作为参考对其进行编程,然后将其导出到另一个名为“customJob.jar”的 jar 中。
这是我在 Hadoop 中启动它的方式:
Job 启动,进入 MapReduce 阶段,然后失败:
对 JobTracker 的进一步调查显示 JobSetup 失败,出现 ClassNotFoundException 错误:
Hadoop 配置是 Giraph 快速入门页面中建议的配置。
我将不胜感激您可以提供的任何帮助/建议:)
提前致谢!
shortest-path - Giraph 教程 ShortestPath 示例作业失败
我正在阅读 Apache Giraph 快速入门教程:http ://giraph.apache.org/quick_start.html并成功设置了一个伪分布式 hadoop 集群并成功运行了示例 mapreduce 作业。
但是,当转到 Giraph 部分时,我已经使用 maven 安装了 Giraph,但由于某种原因,我无法运行最简单的 Giraph 作业。
我已将 tiny_graph 添加到我的 hdfs,但运行他们的示例命令:
给我:
任何关于为什么失败的想法将不胜感激!
非常感谢。
将要
hadoop - 维护每个顶点的数组结构
在整个 Giraph 图中,我需要在 Vertex 基础上维护一个数组,以存储在 Vertex 级别完成的几个“健康”检查的结果。
如果它像编写一个新的输入格式一样简单,会被继承?
我担心的事实是,将提供图形的实际数据不需要知道这个数组。
giraph - 是否可以在 Apache Giraph 中向前任发送消息?
就像标题中一样:是否可以在 Apache Giraph 中向前任发送消息?更重要的是推荐它(我可以找到一些可能有用的应用程序)。
neo4j - Neo4j 或 GraphX / Giraph 选择什么?
刚刚开始我对图形处理方法和工具的探索。我们基本上所做的 - 计算一些标准指标,如 pagerank、聚类系数、三角形计数、直径、连接性等。过去对 Octave 很满意,但是当我们开始使用假设为 10^9 个节点/边的图时,我们卡住了.
因此,可能的解决方案可以是使用 Hadoop/Giraph、Spark/GraphX、Neo4j 等构建的分布式云。
但是由于我是初学者,有人可以建议实际选择什么吗?什么时候使用 Spark/GraphX 和什么时候使用 Neo4j,我没有得到区别?现在我考虑 Spark/GraphX,因为它有更多类似 Python 的语法,而 neo4j 有自己的 Cypher。neo4j 中的可视化很酷,但在如此大规模的情况下没有用。我不明白是否有理由使用额外级别的软件(neo4j)或只使用 Spark/GraphX?因为我知道 Neo4j 不会像我们使用纯 hadoop vs Giraph 或 GraphX 或 Hive 那样节省那么多时间。
谢谢你。
giraph - 如何在 YARN (Hadoop 2.6) 上运行 Giraph ('Worker failed during input split')
我正在尝试设置一个伪分布式 Hadoop 2.6 集群来运行 Giraph 作业。由于我找不到一个全面的指南,我一直依赖 Giraph QuickStart ( http://giraph.apache.org/quick_start.html ),不幸的是它适用于 Hadoop 0.20.203.0 和一些 Hadoop 2.6/YARN 教程。为了做正确的事,我想出了一个应该安装 Hadoop 和 Giraph 的 bash 脚本。不幸的是,Giraph 作业因“输入拆分期间工作人员失败”异常而反复失败。如果有人能在我的部署过程中指出错误或提供另一种工作方式,我将不胜感激。
编辑:我的主要目标是能够开发 Giraph 1.1 工作。我不需要自己运行任何繁重的计算(最终,作业将在外部集群上运行),所以如果有任何更简单的方法来拥有 Giraph 开发环境,它就可以了。
安装脚本如下:
脚本顺利运行到最后一条命令,长时间挂起map 100% reduce 0%
状态;对 YARN 容器的日志文件的调查揭示了神秘的java.lang.IllegalStateException: coordinateVertexInputSplits: Worker failed during input split (currently not supported)
. pastebin 提供完整的容器日志:
容器 1(主): http: //pastebin.com/6nYvtNxJ
容器 2(工人): http: //pastebin.com/3a6CQamQ
我还尝试使用hadoop_yarn
配置文件构建 Giraph(在从 pom.xml 中删除 STATIC_SASL_SYMBOL 之后),但它没有改变任何东西。
我正在运行具有 4GB RAM 和 16GB 交换空间的 Ubuntu 14.10 64bit。额外的系统信息:
对于如何让 Giraph 1.1 在 Hadoop 2.6 上运行的任何帮助,我将不胜感激。