问题标签 [spark-graphx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1654 浏览

scala - 如何使用 Graph.fromEdgeTuples 从 Array[(Any, Any)] 创建图

我对 spark 很陌生,但我想根据从 Hive 表中获得的关系创建一个图表。我找到了一个函数,它应该在不定义顶点的情况下允许这样做,但我无法让它工作。

我知道这不是一个可重现的例子,但这是我的代码:

最后一行生成以下错误:

夫妻看起来像这样:

如何转换为合适的格式?

0 投票
1 回答
723 浏览

scala - 在 Spark GraphX 中查找最大边权重

假设我有一个边属性为双值的图形,我想找到图形的最大边权重。如果我这样做:

我想问一下master上做了多少工作,executor上做了多少,因为我知道collect()方法把整个RDD带到了master上?是否会发生并行性?有没有更好的方法来找到最大边缘权重?

笔记:

如果我想对两个图之间具有相同 srcId 和 dstId 的边的属性应用一些平均函数,那么最好的方法是什么?

0 投票
1 回答
269 浏览

scala - 图之间的结构运算符

这个问题是前一个问题的“续集”。我是 spark graphx 和 scala 的新手,我想知道如何执行下面的操作。

如何将两个图合并为一个新图,以便新图具有以下属性:

对两个图的公共边的属性进行平均(或者以更一般的方式,在边属性之间应用平均函数(边属性为 double 类型))

我们认为公共边=相同的srcId和相同的dstId,并且顶点和边是唯一的。

0 投票
1 回答
1107 浏览

graph - Spark GraphX - 如何从 Spark 中的 JSON 文件中读取数据并根据数据创建图表?

我是 Spark 和 Scala 的新手,我正在尝试从 JSON 文件中读取一堆高音扬声器数据,并将其转换为一个顶点代表一条推文而边缘连接到推文的图,这些推文是原始发布的项目。到目前为止,我已经设法从 JSON 文件中读取并找出我的 RDD 的架构。现在我相信我需要以某种方式从 SchemaRDD 对象中获取数据,并为顶点创建一个 RDD,为边缘创建一个 RDD。这是解决这个问题的方法还是有替代解决方案?任何帮助和建议将不胜感激。

0 投票
0 回答
723 浏览

scala - 处理 Apache Spark GraphX 多个子图

我有一个父图,我想过滤成多个子图,所以我可以对每个子图应用一个函数并提取一些数据。我的代码如下所示:

其中 mySubgraphFunction 是一个创建子图、执行计算并返回结果数据元组的函数。

当我运行它时,我在 mySubgraphFunction 调用 GraphX.subgraph 时得到一个 Java 空指针异常。如果我在术语的 RDD 上调用 collect,我可以让它工作(还添加了对 RDD 的持久性以提高性能):

有没有办法让它在我不必调用 collect() 的情况下工作(即使它成为分布式操作)?我正在创建 ~1k 子图,性能很慢。

0 投票
1 回答
158 浏览

arrays - 在 Spark 中变换数组

现在我想要一个键/值对 RDD,其中键是度数,值是邻居顶点 ID。基本上我想从 (id,Array[1,2,3]) 更改为 {(id,1)(id,2)(id,3)}

我试过嵌套地图并为外部地图创建一个字符串。我被困在这里。如果有人可以提供帮助。提前致谢。

0 投票
4 回答
5529 浏览

scala - 如何在 Spark Scala 中使用 Graph.fromEdgeTuples 从 CSV 文件创建图形

我是 and 的新手SparkScala我正在尝试执行一项简单的任务,即从文本文件中的数据创建图形。

从文档

https://spark.apache.org/docs/0.9.0/api/graphx/index.html#org.apache.spark.graphx.Graph $@fromEdges[VD,ED]%28RDD[Edge[ED]], VD%29%28ClassTag[VD],ClassTag[ED]%29:Graph[VD,ED]

我可以看到我可以从tuples of vertices.

我的简单文本文件如下所示,其中每个数字都是一个顶点:

当我从文件中读取数据时

val myVertices = myData.map(line=>line.split(" ")) 我得到一个 RDD[Array[String]]。

我的问题是:

  1. 如果这是解决问题的正确方法,我如何将其RDD[Array[String]]转换为正确的格式,根据文档是RDD[(VertexId, VertexId)](也VertexID必须是 long 类型,并且我正在使用字符串)

  2. 是否有另一种更简单的方法可以从类似的 csv 文件结构构建图形?

任何建议都会非常受欢迎。谢谢!

0 投票
2 回答
13398 浏览

apache-spark - Spark 无效的检查点目录

我的程序中有一个长期运行的迭代,我想每隔几次迭代缓存和检查点(建议使用这种技术来减少网络上的长沿袭)所以我不会有 StackOverflowError,这样做

我已经像这样设置了检查点目录

但是,当我最终运行我的程序时,我得到了一个异常

我使用 3 台计算机,每台计算机都有 Ubuntu 14.04,并且我还在每台计算机上使用带有 hadoop 2.4 或更高版本的 spark 1.4.1 的预构建版本。

0 投票
1 回答
711 浏览

scala - 如何在 Spark Graphx Scala 的图中向顶点(已经具有属性)添加额外的属性?

情况:

我根据一些高音扬声器数据在 Spark(在 scala 中)构建了一个图表,如下所示:

  • 每个顶点都有一个推文 ID(长)和推文的正文(字符串)
  • 每条边都将源推文连接到转推

我这样做的方法是从边缘文件创建一个图形:

然后使用 outerJoinVertices 将属性添加到每个顶点

问题:

现在我想将它连接到的边数附加到每个顶点(这基本上意味着它被转发了多少次)。我怎样才能做到这一点?

0 投票
1 回答
2400 浏览

apache-spark - apache graphx 合并/组合多个图

我是 Apache GraphX 的新手,我想看看我是否可以在 graphX 中进行图形合并/组合。我想要做的是说我有2个图表如下

我想得到像这样的合并/组合结果

我可以在 Neo4j 嵌入式 graphDB 中使用 Path 对象来比较路径、累积边数并加入缺失的路径。

无论如何或示例可以帮助我在 GraphX 中做同样的事情吗?

谢谢