问题标签 [spark-graphx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 spark 和 graphx 中使用 mapReduceTriplets 将函数应用于图形数据
我在使用 graphx 将 mapReduceTriplets 应用到我的图形网络时遇到了一些问题。
我一直在关注教程并读入我自己的数据,这些数据以 [Array[String],Int] 的形式组合在一起,例如我的顶点是:
org.apache.spark.graphx.VertexRDD[Array[String]]
例如 (3999,Array(17, Low, 9))
我的优势是:
org.apache.spark.graphx.EdgeRDD[Int]
例如边缘(3999,4500,1)
我正在尝试使用 mapReduceTriplets 应用聚合类型函数,该函数计算顶点数组中的最后一个整数(在上面的示例 9 中)与第一个整数(在上面的示例 17 中)相同或不同的数量所有连接的顶点。
因此,您最终会得到一个匹配或不匹配数量的计数列表。
我遇到的问题是使用 mapReduceTriplets 应用任何函数,我对 scala 很陌生,所以这可能真的很明显,但是在 graphx 教程中,它有一个使用 Graph[Double, Int] 格式的图形的示例,但是我的图表采用 Graph[Array[String],Int] 的格式,所以我只是尝试作为第一步来弄清楚如何在示例中使用我的图表,然后从那里开始工作。
graphx网站上的例子如下:
任何建议将不胜感激,或者如果您认为有比使用 mapreducetriplets 更好的方法,我会很高兴听到它。
修改了新代码
neo4j - 如何将neo4j数据库拉到mazerunner docker
我正在使用 kenny Bastani 提供的 Mazerunner docker 来集成 neo4j 和 spark-graphx。我能够处理给定的电影图。现在我想将我自己的 Twitter 图表拉到 Mazerunner docker。谁能告诉我如何将新图拉到 mazerunner docker。提前致谢。
-纳伦德拉
scala - 如何在 GraphX 中映射 compactBuffer
我有一个这样的compactBuffer:
如何映射该 compactBuffer 并将一个函数(我对其进行编码)传递到该映射中?提前致谢 !
apache-spark - Spark GraphX 内存溢出错误 SparkListenerBus (java.lang.OutOfMemoryError: Java heap space)
我在 Apache Spark (Graphx) 上遇到内存不足的问题。应用程序运行,但一段时间后关闭。我使用 Spark 1.2.0。集群有足够多的内存核数。我不使用 GraphX 的其他应用程序运行没有问题。应用使用 Pregel。
我以 Hadoop YARN 模式提交申请:
HADOOP_CONF_DIR=/etc/hadoop/conf spark-submit --class DPFile --deploy-mode cluster --master yarn --num-executors 4 --driver-memory 10g --executor-memory 6g --executor-cores 8 - -文件 log4j.properties spark_routing_2.10-1.0.jar road_cr_big2 1000
火花配置:
谢谢你的回答。
日志:
graph - 使用 Spark 和 GraphX 查找相互边
我对 spark 和 graphx 真的很陌生。我的问题是,如果我有一个图,其中一些节点之间有相互(相互)的边,我想选择性能良好的边。一个例子:
来源 Dst。
1 2
1 3
1 4
1 5
2 1
2 5
2 6
2 7
3 1
我想得到结果:
1 2
2 1
1 3
3 1
顺序可以是任意的。有谁知道我怎么能得到这个?
scala - 通过边缘属性遍历 spark-graphx 中的图
我希望有人可能对以下内容有一些建议,我最近在这里遇到了一个类似(ish)的问题,并希望对其进行扩展。
我目前有一个使用 graphx 构建的网络,如下所示(只有更多的顶点和边)
顶点 ID、属性 1、属性 2
1001, 2, 0
1002, 1, 0
1003, 2, 1
1004, 3, 2
1006, 4, 0
1007、5、1
边源、目标、属性
1001, 1002, 7
1002, 1003, 7
1003, 1004, 7
1004, 1005, 3
1002, 1006, 5
1006, 1007, 5
对于每个顶点,我想根据边缘属性沿链向每个连接的组件发送一条消息,并计算顶点属性与链上另一个顶点属性的匹配数。
例如:对于顶点 1004 的连接边属性是 7,所以我想通过边属性 7 识别连接到 1004 的每个组件,在这种情况下它将是 1001->1002->1003->1004,然后是模式将 1004 中的第二个顶点属性(在本例中为 2)与链上任何匹配的第一个顶点属性匹配(在本例中,它将与 1003 和 1001 匹配,总计数为 2)。
我在想一个解决方案是针对每个顶点:
- 连接到它的所有边属性的子图
- 沿每个子图计算所有匹配的顶点属性
- 在最后为每个顶点生成一个计数
任何关于如何最好地完成这项任务的建议都将受到欢迎,或者例如使用 Pregel 之类的东西是否有可能?
scala - 将前两个节点与 GraphX 中两个 RDD 的边连接起来
我是第一次使用 GraphX,我想逐步构建一个 Graph。所以我需要将前两个节点连接到一条边,知道我有 2 个 RDD(每个都有一个值):
我想将第一个VertexId与第二个连接起来。我感谢您的帮助
scala - 从另一个 RDD 中减去一个 RDD 不能正常工作
我想从另一个 RDD 中减去一个 RDD。我查看了文档,发现subtract
可以做到这一点。实际上,当我测试时subtract
,最终的 RDD 保持不变,并且没有删除值!
有没有其他功能可以做到这一点?还是我使用subtract
不当?
这是我使用的代码:
scala - 传递数组的函数 foreach 键
我有一个这样的数组:
生成此输出:
我想为每个pairs._1
. 这意味着例如那些具有相同 id (pair._1) 的人将一起构建一个 Graph。我正在考虑将 Graph Construction 的功能传递给每个 id。我怎样才能做到这一点 ?
apache-spark - 如何在 Graphx 中创建 EdgeRDD
我正在使用 spark 1.4.0 和 graphx,我将图形边缘存储在文件中,我使用以下代码行将它们存储在 RDD 中。我想使用 EdgeRDD 而不是 RDD[Edge[String]]
我试过这个
我该如何解决这个问题。