问题标签 [giraph]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
graph-databases - 如何通过 TinkerPop 3 堆栈将完整的图形传输到 Giraph?
我有一个包含不同类型节点和关系的图表。每种类型的节点都有 3-4 个属性。为了在 HDFS 上进行测试,我使用 GraphSON 文件来存储这个图。现在我想用 Giraph 分析这个图。我探索了 Giraph 的 IO 类,还发现 Gremlin 可以直接加载 GraphSON。那么您能否解释一下如何使用 TinkerPop 堆栈将图形加载到 Giraph 中?
neo4j - 哪种 Giraph I/O 格式可用于属性图?
Giraph 中有几种内置的输入输出格式,但所有这些格式都只支持数字 ID 和值。
- 那么有没有一种方法来处理属性图,使得顶点和边都可以有多个键和值或任何接近的东西?我对edge 是否可以具有类似或的属性特别感兴趣。
timeCreated
type
- 此外,是否有一些约定仅使用数字 ID 和数据来加快处理速度?具体来说,在使用 Giraph 进行批处理之前,图形数据库中的属性图是否通常被过滤为只有 ids 和 value?
java - 使用 Hadoop 构建 Giraph
我正在尝试使用 Hadoop 2.7.1 设置 Giraph 尽我所能,它似乎不起作用。
我尝试按照以下链接进行操作,
- http://giraph.apache.org/build.html
- https://blog.cloudera.com/blog/2014/02/how-to-write-and-run-giraph-jobs-on-hadoop/
- http://lab.hypotheses.org/1207
当我尝试使用构建时会发生什么mvn -Phadoop_yarn -Dhadoop.version=2.7.1 -DskipTests package
当我尝试使用构建时会发生什么,mvn -Phadoop_yarn -Dhadoop.version=2.7.1 -DskipTests install
编辑:
正如 Steve Kaeser 在他的回答中所建议的那样,我更改了我的 pom.xlm 并且更改的部分如下所示。
在我运行时执行此操作后,mvn -Phadoop_yarn -Dhadoop.version=2.7.1 -DskipTests install
我得到了很多输出并且它失败了。部分输出如下所示,
java - hadoop 2.7.1 中的 hadoop-core-xxx.jar 等价于什么
我正在研究用于分布式处理图形的斯坦福 GPS(图形处理系统)框架。该框架使用hadoop。根据 GPS 文档,安装 GPS 需要将 hadoop-core-xxx.jar 文件复制到其 libs 目录中。但是,我发现 hadoop-core-xxx.jar 在 hadoop 2.7.1 中不存在。什么相当于2.7.1版本的hadoop核心文件?
提前致谢...
giraph - 当所有顶点都收敛时停止 Giraph
我是 Giraph 的新手,所以也许我的问题有一个明显的回应。
我正在 Giraph 上实现一个算法,当所有顶点都收敛时需要停止并在之后进行一些计算。
我的方法是在每个顶点收敛后停止它并继续与其余顶点一起工作,一旦所有顶点都停止进行最终计算。但我看不出有办法做到这一点。
由于我的第一个想法似乎不正确,我正在考虑使用具有存储顶点状态的标志的聚合器,在此过程中不停止任何顶点,一旦标志处于活动状态,进行最终计算并停止顶点。
以下哪一项是最佳实践或唯一的方法?还是我应该以其他方式做到这一点?
谢谢!
java - 在 Apache Giraph 中创建日志的使用。
我正在阅读简单最短路径计算课程。这里: https ://apache.googlesource.com/giraph/+/3d4f31343c3686435696e75ce88a75c9bffb024e/giraph-examples/src/main/java/org/apache/giraph/examples/SimpleShortestPathsComputation.java
我无法使用在此类中创建日志。即使我评论了所有与日志相关的内容,程序也运行良好。
hadoop - 无法找到或加载主类 256 - Yarn 集群
我目前正在运行一个单节点纱线集群,出于某种原因,我什至无法执行 map reduce 附带的示例(grep、wordcount 等)。通过这一行,我执行 grep:
这个集群以前运行 Giraph 程序,但现在我需要一个 Map Reduce 应用程序,所以我将它切换回纯纱线。但可能我错过了一些东西。
所有失败的容器都有相同的错误:
Jps
结果:
主要日志:
javascript - Web 应用程序中网络表示的图形数据库
我不确定这个问题是否过于宽泛,但我们开始......
我有兴趣设计一个 Web 应用程序(辅助项目),它可以查询 DB 以获取信息并在网络结构中表示它。很广泛吧?!让我们缩小一点。
DB 可以是任何类型(Oracle、MySQL、Giraph 等)。标准是能够反映更新数据(100G 总大小和 1-2G 变化)的实时(1-2 秒延迟)。
它将存储的数据形式为:
在上面的示例中,机器 1 和 3 将连接到该位置的 b/c。
然后服务器端是Tomcat(也可以是其他)。
最后,正面的 UI,我倾向于 JS。
底线:我正在寻找数据库的设计建议以及如何表示数据。对于前者,由于数据量很小,任何数据库都可以承载。对于后者,与我的愿景最接近的数据可视化是Cytoscape.js。
是否有支持交互式网络表示的类似工具?数据是相关的,但 Giraph 更有意义。
你怎么看?
我感谢任何设计意见。
更新:我做了更多的阅读,vivagraphjs + neo4j 是迄今为止最强的候选人。
graph - Apache Giraph 中的分区类是什么?例如 Giraph 工作中的 -pc
通过命令行提交的 giraph 作业中的 partitionClass (-pc) 是什么?论据是什么或如何给出论据?你能举个例子吗?我看到了说哈希分区等的 API。但找不到一个例子来看看如何使用 -pc 提交作业。
graph - Giraph 中的自定义图分区算法
已经提到过为 Giraph 应用程序使用自定义分区算法。但是在任何地方都没有明确给出。正如 Castagna 在如何为预凝胶分区图以最大化处理速度中指出的那样?,可能不需要这样的分区,因为 HashPartitioner 在大多数情况下本身就非常好。
为了最小化执行时间而“智能地”划分图的问题是一个有趣的问题,但它并不简单,它取决于您的数据和算法。您可能还会发现,在实践中,这不是必需的,随机分区已经足够好。
例如,如果您有兴趣探索类似 Pregel 的方法,可以查看 Apache Giraph 并尝试不同的分区技术。
但是,出于学习的目的,最好能看到活生生的例子,但据我所见,没有找到。例如,在 Giraph 中执行的正常 k 路分区算法(Kerninghan-Lin)或至少我应该实现的方向。
所有的谷歌结果都来自 Apache giraph 页面,其中只有函数的定义和使用它们的各种选项。