问题标签 [spark-graphx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1774 浏览

scala - 在 spark 和 graphx 中使用 mapReduceTriplets 将函数应用于图形数据

我在使用 graphx 将 mapReduceTriplets 应用到我的图形网络时遇到了一些问题。

我一直在关注教程并读入我自己的数据,这些数据以 [Array[String],Int] 的形式组合在一起,例如我的顶点是:

org.apache.spark.graphx.VertexRDD[Array[String]]例如 (3999,Array(17, Low, 9))

我的优势是:

org.apache.spark.graphx.EdgeRDD[Int] 例如边缘(3999,4500,1)

我正在尝试使用 mapReduceTriplets 应用聚合类型函数,该函数计算顶点数组中的最后一个整数(在上面的示例 9 中)与第一个整数(在上面的示例 17 中)相同或不同的数量所有连接的顶点。

因此,您最终会得到一个匹配或不匹配数量的计数列表。

我遇到的问题是使用 mapReduceTriplets 应用任何函数,我对 scala 很陌生,所以这可能真的很明显,但是在 graphx 教程中,它有一个使用 Graph[Double, Int] 格式的图形的示例,但是我的图表采用 Graph[Array[String],Int] 的格式,所以我只是尝试作为第一步来弄清楚如何在示例中使用我的图表,然后从那里开始工作。

graphx网站上的例子如下:

任何建议将不胜感激,或者如果您认为有比使用 mapreducetriplets 更好的方法,我会很高兴听到它。

修改了新代码

0 投票
1 回答
615 浏览

neo4j - 如何将neo4j数据库拉到mazerunner docker

我正在使用 kenny Bastani 提供的 Mazerunner docker 来集成 neo4j 和 spark-graphx。我能够处理给定的电影图。现在我想将我自己的 Twitter 图表拉到 Mazerunner docker。谁能告诉我如何将新图拉到 mazerunner docker。提前致谢。

-纳伦德拉

0 投票
2 回答
302 浏览

scala - 如何在 GraphX 中映射 compactBuffer

我有一个这样的compactBuffer:

如何映射该 compactBuffer 并将一个函数(我对其进行编码)传递到该映射中?提前致谢 !

0 投票
0 回答
1000 浏览

apache-spark - Spark GraphX 内存溢出错误 SparkListenerBus (java.lang.OutOfMemoryError: Java heap space)

我在 Apache Spark (Graphx) 上遇到内存不足的问题。应用程序运行,但一段时间后关闭。我使用 Spark 1.2.0。集群有足够多的内存核数。我不使用 GraphX 的其他应用程序运行没有问题。应用使用 Pregel。

我以 Hadoop YARN 模式提交申请:

HADOOP_CONF_DIR=/etc/hadoop/conf spark-submit --class DPFile --deploy-mode cluster --master yarn --num-executors 4 --driver-memory 10g --executor-memory 6g --executor-cores 8 - -文件 log4j.properties spark_routing_2.10-1.0.jar road_cr_big2 1000

火花配置:

谢谢你的回答。

日志:

0 投票
1 回答
387 浏览

graph - 使用 Spark 和 GraphX 查找相互边

我对 spark 和 graphx 真的很陌生。我的问题是,如果我有一个图,其中一些节点之间有相互(相互)的边,我想选择性能良好的边。一个例子:

来源 Dst。

1 2

1 3

1 4

1 5

2 1

2 5

2 6

2 7

3 1

我想得到结果:

1 2

2 1

1 3

3 1

顺序可以是任意的。有谁知道我怎么能得到这个?

0 投票
1 回答
1551 浏览

scala - 通过边缘属性遍历 spark-graphx 中的图

我希望有人可能对以下内容有一些建议,我最近在这里遇到了一个类似(ish)的问题,并希望对其进行扩展。

我目前有一个使用 graphx 构建的网络,如下所示(只有更多的顶点和边)

顶点 ID、属性 1、属性 2

1001, 2, 0

1002, 1, 0

1003, 2, 1

1004, 3, 2

1006, 4, 0

1007、5、1

边源、目标、属性

1001, 1002, 7

1002, 1003, 7

1003, 1004, 7

1004, 1005, 3

1002, 1006, 5

1006, 1007, 5

对于每个顶点,我想根据边缘属性沿链向每个连接的组件发送一条消息,并计算顶点属性与链上另一个顶点属性的匹配数。

例如:对于顶点 1004 的连接边属性是 7,所以我想通过边属性 7 识别连接到 1004 的每个组件,在这种情况下它将是 1001->1002->1003->1004,然后是模式将 1004 中的第二个顶点属性(在本例中为 2)与链上任何匹配的第一个顶点属性匹配(在本例中,它将与 1003 和 1001 匹配,总计数为 2)。

我在想一个解决方案是针对每个顶点:

  1. 连接到它的所有边属性的子图
  2. 沿每个子图计算所有匹配的顶点属性
  3. 在最后为每个顶点生成一个计数

任何关于如何最好地完成这项任务的建议都将受到欢迎,或者例如使用 Pregel 之类的东西是否有可能?

0 投票
1 回答
125 浏览

scala - 将前两个节点与 GraphX 中两个 RDD 的边连接起来

我是第一次使用 GraphX,我想逐步构建一个 Graph。所以我需要将前两个节点连接到一条边,知道我有 2 个 RDD(每个都有一个值):

我想将第一个VertexId与第二个连接起来。我感谢您的帮助

0 投票
3 回答
7303 浏览

scala - 从另一个 RDD 中减去一个 RDD 不能正常工作

我想从另一个 RDD 中减去一个 RDD。我查看了文档,发现subtract可以做到这一点。实际上,当我测试时subtract,最终的 RDD 保持不变,并且没有删除值!

有没有其他功能可以做到这一点?还是我使用subtract不当?

这是我使用的代码:

0 投票
1 回答
108 浏览

scala - 传递数组的函数 foreach 键

我有一个这样的数组:

生成此输出:

我想为每个pairs._1. 这意味着例如那些具有相同 id (pair._1) 的人将一起构建一个 Graph。我正在考虑将 Graph Construction 的功能传递给每个 id。我怎样才能做到这一点 ?

0 投票
1 回答
935 浏览

apache-spark - 如何在 Graphx 中创建 EdgeRDD

我正在使用 spark 1.4.0 和 graphx,我将图形边缘存储在文件中,我使用以下代码行将它们存储在 RDD 中。我想使用 EdgeRDD 而不是 RDD[Edge[String]]

我试过这个

我该如何解决这个问题。