问题标签 [spark-graphx]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

475 问题

0 投票

1 回答

1774 浏览

scala - 在 spark 和 graphx 中使用 mapReduceTriplets 将函数应用于图形数据

我在使用 graphx 将 mapReduceTriplets 应用到我的图形网络时遇到了一些问题。

我一直在关注教程并读入我自己的数据，这些数据以 [Array[String],Int] 的形式组合在一起，例如我的顶点是：

org.apache.spark.graphx.VertexRDD[Array[String]]例如 (3999,Array(17, Low, 9))

我的优势是：

org.apache.spark.graphx.EdgeRDD[Int] 例如边缘（3999,4500,1）

我正在尝试使用 mapReduceTriplets 应用聚合类型函数，该函数计算顶点数组中的最后一个整数（在上面的示例 9 中）与第一个整数（在上面的示例 17 中）相同或不同的数量所有连接的顶点。

因此，您最终会得到一个匹配或不匹配数量的计数列表。

我遇到的问题是使用 mapReduceTriplets 应用任何函数，我对 scala 很陌生，所以这可能真的很明显，但是在 graphx 教程中，它有一个使用 Graph[Double, Int] 格式的图形的示例，但是我的图表采用 Graph[Array[String],Int] 的格式，所以我只是尝试作为第一步来弄清楚如何在示例中使用我的图表，然后从那里开始工作。

graphx网站上的例子如下：

任何建议将不胜感激，或者如果您认为有比使用 mapreducetriplets 更好的方法，我会很高兴听到它。

修改了新代码

0 投票

1 回答

615 浏览

neo4j - 如何将neo4j数据库拉到mazerunner docker

我正在使用 kenny Bastani 提供的 Mazerunner docker 来集成 neo4j 和 spark-graphx。我能够处理给定的电影图。现在我想将我自己的 Twitter 图表拉到 Mazerunner docker。谁能告诉我如何将新图拉到 mazerunner docker。提前致谢。

-纳伦德拉

neo4j spark-graphx neo4j-mazerunner

0 投票

2 回答

302 浏览

scala - 如何在 GraphX 中映射 compactBuffer

我有一个这样的compactBuffer：

如何映射该 compactBuffer 并将一个函数（我对其进行编码）传递到该映射中？提前致谢！

scala apache-spark spark-streaming spark-graphx

0 投票

0 回答

1000 浏览

apache-spark - Spark GraphX 内存溢出错误 SparkListenerBus (java.lang.OutOfMemoryError: Java heap space)

我在 Apache Spark (Graphx) 上遇到内存不足的问题。应用程序运行，但一段时间后关闭。我使用 Spark 1.2.0。集群有足够多的内存核数。我不使用 GraphX 的其他应用程序运行没有问题。应用使用 Pregel。

我以 Hadoop YARN 模式提交申请：

HADOOP_CONF_DIR=/etc/hadoop/conf spark-submit --class DPFile --deploy-mode cluster --master yarn --num-executors 4 --driver-memory 10g --executor-memory 6g --executor-cores 8 - -文件 log4j.properties spark_routing_2.10-1.0.jar road_cr_big2 1000

火花配置：

谢谢你的回答。

日志：

apache-spark hadoop-yarn spark-graphx

0 投票

1 回答

387 浏览

graph - 使用 Spark 和 GraphX 查找相互边

我对 spark 和 graphx 真的很陌生。我的问题是，如果我有一个图，其中一些节点之间有相互（相互）的边，我想选择性能良好的边。一个例子：

来源 Dst。

1 2

1 3

1 4

1 5

2 1

2 5

2 6

2 7

3 1

我想得到结果：

1 2

2 1

1 3

3 1

顺序可以是任意的。有谁知道我怎么能得到这个？

graph apache-spark vertices edges spark-graphx

0 投票

1 回答

1551 浏览

scala - 通过边缘属性遍历 spark-graphx 中的图

我希望有人可能对以下内容有一些建议，我最近在这里遇到了一个类似（ish）的问题，并希望对其进行扩展。

我目前有一个使用 graphx 构建的网络，如下所示（只有更多的顶点和边）

顶点 ID、属性 1、属性 2

1001, 2, 0

1002, 1, 0

1003, 2, 1

1004, 3, 2

1006, 4, 0

1007、5、1

边源、目标、属性

1001, 1002, 7

1002, 1003, 7

1003, 1004, 7

1004, 1005, 3

1002, 1006, 5

1006, 1007, 5

对于每个顶点，我想根据边缘属性沿链向每个连接的组件发送一条消息，并计算顶点属性与链上另一个顶点属性的匹配数。

例如：对于顶点 1004 的连接边属性是 7，所以我想通过边属性 7 识别连接到 1004 的每个组件，在这种情况下它将是 1001->1002->1003->1004，然后是模式将 1004 中的第二个顶点属性（在本例中为 2）与链上任何匹配的第一个顶点属性匹配（在本例中，它将与 1003 和 1001 匹配，总计数为 2）。

我在想一个解决方案是针对每个顶点：