刚刚开始我对图形处理方法和工具的探索。我们基本上所做的 - 计算一些标准指标,如 pagerank、聚类系数、三角形计数、直径、连接性等。过去对 Octave 很满意,但是当我们开始使用假设为 10^9 个节点/边的图时,我们卡住了.
因此,可能的解决方案可以是使用 Hadoop/Giraph、Spark/GraphX、Neo4j 等构建的分布式云。
但是由于我是初学者,有人可以建议实际选择什么吗?什么时候使用 Spark/GraphX 和什么时候使用 Neo4j,我没有得到区别?现在我考虑 Spark/GraphX,因为它有更多类似 Python 的语法,而 neo4j 有自己的 Cypher。neo4j 中的可视化很酷,但在如此大规模的情况下没有用。我不明白是否有理由使用额外级别的软件(neo4j)或只使用 Spark/GraphX?因为我知道 Neo4j 不会像我们使用纯 hadoop vs Giraph 或 GraphX 或 Hive 那样节省那么多时间。
谢谢你。