问题标签 [graphframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1390 浏览

r - Graphframes PageRank 性能:PySpark 与 sparklyr

我正在使用来自 Python 和 R 的 Spark/GraphFrames。当我在 Python 的小图上调用 PageRank 时,它比使用 R 慢很多。考虑到 Python 和 R 都在调用相同的图书馆?

我将尝试在下面演示这个问题。

Spark/GraphFrames 包括图的示例,例如朋友如此链接中所述。这是一个非常小的有向图,有 6 个节点和 8 条边(请注意,该示例与其他版本的 GraphFrames 相比并不相同)。

在此处输入图像描述

当我用 R 运行以下代码时,几乎不需要时间来计算 PageRank:

当我使用 PySpark 运行等效程序时,需要 10 到 30 分钟:

我尝试了不同版本的 Spark 和 GraphFrames for Python 以与 R 的设置保持一致。

0 投票
1 回答
1401 浏览

apache-spark - 在离线 Spark 集群中安装 graphframes 包

我有一个离线 pyspark 集群(无法访问互联网),我需要在其中安装graphframes库。

我已经从这里手动下载了$SPARK_HOME/jars/ 中添加的 jar,然后当我尝试使用它时,出现以下错误:

使用所有依赖项离线安装它的正确方法是什么?

0 投票
1 回答
143 浏览

apache-spark - GraphFrames 检测排他的出站关系

在我的图中,我需要检测没有入站关系的顶点。使用下面的示例,“a”是唯一不被任何人关联的节点。

我真的很感激在我的图中检测“a”类型节点的任何示例。

谢谢

0 投票
1 回答
697 浏览

python - Graphframes/Graphx 连接的组件跳过数字

我正在使用 Spark Graphframes 库来创建身份解析系统。我已经能够使用 spark 来查找匹配项。我的计划是使用图表来查找人与人之间的短暂联系,并为他们分配一个 id 以进行进一步分析等。

我使用了以下数据(来自公共 febrl 数据库):

顶点数据样本:

边缘数据样本:

创建的图表:

使用的连接组件:

这导致:

组件列并不总是以 1 为增量增加,但似乎随机跳过数字,我想确保以 1 为增量增加使用此数字为每个人分配一个 ID。有人知道为什么 Graphframes 会这样做吗?

当我进一步研究这一点时,对于我的开发数据框中的大约 20,000 行,大约 17% 的条目中有一个跳过。在极端情况下,差距可能高达 20-30 左右,即一排 id 是 5846,下一排是 5868。我担心的是,当我以数百万和数亿规模扩展时,id 之间的差距会变得非常大,这可能会产生问题。

TL;DR:为什么 Sparks 连接的组件似乎随机跳过值而不总是递增 1?

0 投票
2 回答
1797 浏览

apache-spark - 在 pyspark 中创建图框时出错

我正在尝试运行以下代码以在我本地设置的 pyspark 中创建图框。但我收到错误。我正在使用 spark-2.4.0-bin-hadoop2.7 版本。

我收到以下错误。

在此处输入图像描述

0 投票
2 回答
1902 浏览

pyspark - 如何显示/可视化由 GraphFrame 创建的图形?

我使用 GraphFrame 创建了一个图表

g = GraphFrame (vertices, edges)

除了使用 GraphFrame 提供的查询和属性分析图形之外,我还想可视化图形以在演示文稿中使用。

您是否知道以简单的方式允许这种可视化的任何工具/库/API/代码?

0 投票
0 回答
437 浏览

apache-spark - 如何找出graphframe(pyspark)中特定顶点的相邻顶点?

我正在尝试使用 pyspark 中可用的 graphframe API 找出特定顶点的相邻顶点。我该怎么做?例如,考虑以下图形边缘(尽管输入是定向的,但它应该被视为双向)。

这是我的代码,它需要一个输入文件(edge.txt),比如

0 投票
1 回答
203 浏览

scala - EMR Notebook Scala 内核导入图框库

在 bash shell 中运行spark-shell --packages "graphframes:graphframes:0.7.0-spark2.4-s_2.11"有效,我可以成功导入 graphframes 0.7,但是当我尝试在这样的 scala jupyter 笔记本中使用它时:

给出错误信息:

据我所知,这意味着它运行 bash 命令,但仍然找不到检索到的包。

我在运行 spark scala 内核的 EMR Notebook 上执行此操作。

我是否必须在 jupyter 环境中设置某种火花库路径?

0 投票
1 回答
490 浏览

apache-spark - GraphFrames:找到无方向的主题路径

我正在使用 GraphFrames 主题在我的图中找到 3 个节点(a、b 和 c)之间的路径。这工作得很好,但不幸的是我需要找到无向的路径。

如何构建无向图或找到可以导航无向边的主题路径?

谢谢

0 投票
1 回答
175 浏览

apache-spark - 在 Graphframes 中实现自定义算法

我想使用运行 pyspark 2.3 的 GraphFrames 在图上运行双连接图算法。

我意识到所有内置算法都在 Scala 中使用 GraphX 运行。

有没有一种方法可以在 scala - GraphX 中实现双连接算法,而不是在 GraphFrames 对象上调用它?

有人熟悉这样的解决方案吗?