问题标签 [spark-graphx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2228 浏览

apache-spark - Apache Zeppelin 未显示 Spark 输出

我正在使用以下数据示例使用 Spark 测试 Zeppelin:

我注意到 Zeppelin 并不总是能够显示输出,即使代码在 Spark-Shell 中运行良好。下面是一个例子,知道如何解决这个问题吗?

0 投票
2 回答
1544 浏览

scala - 使用 Scala 在 Spark 中的图中添加新顶点

我在 Scala 中使用 Spark。我想创建一个图表并动态更新图表。

我已经使用以下代码完成了此操作:

该程序正在图中添加一个新顶点,但每当插入新顶点时,它就会一次又一次地计算图。我希望在不重新计算图表的情况下做到这一点。

0 投票
1 回答
2984 浏览

scala - 如何将属性附加到graphx中的顶点并检索邻域

我对 Spark 和 Scala 比较陌生……我有一个图:Graph[Int, String],我想将我在 DataFrame 中的一些属性附加到这些顶点。

我需要做的是,对于每个顶点,找到每个属性的邻域平均值。到目前为止,这是我的方法,但我不明白如何正确映射从两个数据框的连接中获得的行:

我认为我的方法不正确,因为我将每个顶点的属性与其邻居的数组连接起来,但我仍然不知道邻居的属性值......

编辑

一些数据来帮助理解我想要完成的事情......说你在这个答案中构建图表如何从 Spark 中的数据框创建 EdgeRDD

然后你有一个数据框,如:

我想计算,对于每个顶点,平均性别是多少,邻居的平均收入是多少,以 DataFrame 形式返回

0 投票
1 回答
1639 浏览

scala - 如何使用 scala 将 Spark GraphX 图导出到 Gephi

我在 Spark 中有从不同数据源收集的图表。有没有简单的方法将 Spark GraphX 图导出到 Gephi 以使用 scala 进行可视化?有什么常见的数据格式?

0 投票
1 回答
802 浏览

scala - 在 Spark 中为每个 Executor 创建数组并合并到 RDD

我正在从基于 MPI 的系统迁移到 Apache Spark。我需要在 Spark 中执行以下操作。

假设,我有n顶点。我想从这些n顶点创建一个边列表。一条边只是两个整数 (u,v) 的元组,不需要任何属性。

但是,我想在每个执行程序中独立地并行创建它们。因此,我想为Spark ExecutorsP独立创建边缘数组。P每个数组可能具有不同的大小并且取决于顶点,因此,我还需要执行程序 id from 0to n-1。接下来,我想要一个全局 RDD 边数组。

在 MPI 中,我将使用处理器等级在每个处理器中创建一个数组。我如何在 Spark 中做到这一点,尤其是使用GraphX库?

因此,我的主要目标是在每个 executor 中创建一组边,并将它们组合成一个 RDD。

我首先尝试了鄂尔多斯--人义模型的一个修改版本。作为参数,我只有节点数 n 和概率 p。

假设 executori必须处理从101到的节点200。对于任何节点,比如 node 101,它将以概率 p创建从101到的边。102 -- n在每个执行程序创建分配的边之后,我将实例化 GraphXEdgeRDDVertexRDD. 因此,我的计划是在每个 executor 中独立创建边缘列表,并将它们合并到RDD.

0 投票
1 回答
825 浏览

python - 如何使用在源 RDD 中共享键的元素创建对 RDD?

我在 pyspark 中有一个键值 RDD,并且想返回一个在源 RDD 中具有相同键的对的 RDD。

到目前为止,我一直无法想出正确的功能组合来做到这一点。这样做的目的是根据共享的公共密钥创建用户的边缘列表。

0 投票
1 回答
887 浏览

apache-spark - 在生成的图上运行 Spark GraphX 算法的问题

我使用以下代码在 Spark GraphX 中创建了一个图形。(请参阅我的问题和解决方案

现在,我可以访问图表并查看节点的度数。但是当我尝试获取一些措施时,例如连接的组件,我得到了以下异常。

为什么我无法使用 GraphX 对生成的图执行这些操作?

0 投票
1 回答
920 浏览

scala - 如何计算graphx中邻居的顶点相似度

假设有一个简单的图表,如:

我想计算每个顶点在每个属性上与其邻居的相似程度。

理想的输出(RDD 或 DataFrame)将包含以下结果:

例如,1L 的第一个值意味着在 2 个邻居上,只有 1 个共享相同的值......

我正在玩 aggregateMessage 只是为了计算有多少邻居具有相似的属性值,但到目前为止无济于事:

这为我提供了每个顶点的正确邻域大小,但没有正确总结值:

0 投票
1 回答
961 浏览

scala - I need to do join/joinVertices or add a field in tuple in graph by Spark Graphx

I have a RDF graph(link) with tuples(s,p,o) and I made a property graph from that. My RDF property graph is obtained by following code(Complete code):

with output as below:

and RDF data as:

When I apply connectedComponents()I get cc graph with ccID as bellow-

With output as:

I need to get something like:

i.e. I need result in this triplet/graph format:

so the option I do have might be from join. I tried to do something like val triplets = propGraph.joinVertices(cc.vertices) but not able to do properly. Is there any way to get this?

Any help is appreciated!! I am newbie in Graphx.:)

0 投票
1 回答
869 浏览

scala - 如何将 VertexRDD 转换为 DataFrame

我有一个 VertexRDD[DenseVector[Double]] 并且我想将它转换为一个数据帧。我不明白如何将 DenseVector 中的值映射到数据框中的新列。

我正在尝试将架构指定为:

我认为一个选项是将我的 VertexRDD(breeze.linalg.DenseVector 保存所有值的地方)转换为 RDD[Row],以便我最终可以创建一个数据框,如:

但我得到一个

任何提示都非常受欢迎