问题标签 [graphframes]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

174 问题

0 投票

1 回答

1390 浏览

r - Graphframes PageRank 性能：PySpark 与 sparklyr

我正在使用来自 Python 和 R 的 Spark/GraphFrames。当我在 Python 的小图上调用 PageRank 时，它比使用 R 慢很多。考虑到 Python 和 R 都在调用相同的图书馆？

我将尝试在下面演示这个问题。

Spark/GraphFrames 包括图的示例，例如朋友，如此链接中所述。这是一个非常小的有向图，有 6 个节点和 8 条边（请注意，该示例与其他版本的 GraphFrames 相比并不相同）。

当我用 R 运行以下代码时，几乎不需要时间来计算 PageRank：

当我使用 PySpark 运行等效程序时，需要 10 到 30 分钟：

我尝试了不同版本的 Spark 和 GraphFrames for Python 以与 R 的设置保持一致。

r apache-spark pyspark sparklyr graphframes

2018-10-05T10:19:52.203

0 投票

1 回答

1401 浏览

apache-spark - 在离线 Spark 集群中安装 graphframes 包

我有一个离线 pyspark 集群（无法访问互联网），我需要在其中安装graphframes库。

我已经从这里手动下载了$SPARK_HOME/jars/ 中添加的 jar，然后当我尝试使用它时，出现以下错误：

使用所有依赖项离线安装它的正确方法是什么？

apache-spark package graphframes

2018-10-31T12:14:55.927

0 投票

1 回答

143 浏览

apache-spark - GraphFrames 检测排他的出站关系

在我的图中，我需要检测没有入站关系的顶点。使用下面的示例，“a”是唯一不被任何人关联的节点。

我真的很感激在我的图中检测“a”类型节点的任何示例。

谢谢

apache-spark graphframes

2018-11-10T22:27:49.677

0 投票

1 回答

697 浏览

python - Graphframes/Graphx 连接的组件跳过数字

我正在使用 Spark Graphframes 库来创建身份解析系统。我已经能够使用 spark 来查找匹配项。我的计划是使用图表来查找人与人之间的短暂联系，并为他们分配一个 id 以进行进一步分析等。

我使用了以下数据（来自公共 febrl 数据库）：

顶点数据样本：

边缘数据样本：

创建的图表：

使用的连接组件：

这导致：

组件列并不总是以 1 为增量增加，但似乎随机跳过数字，我想确保以 1 为增量增加使用此数字为每个人分配一个 ID。有人知道为什么 Graphframes 会这样做吗？

当我进一步研究这一点时，对于我的开发数据框中的大约 20,000 行，大约 17% 的条目中有一个跳过。在极端情况下，差距可能高达 20-30 左右，即一排 id 是 5846，下一排是 5868。我担心的是，当我以数百万和数亿规模扩展时，id 之间的差距会变得非常大，这可能会产生问题。

TL;DR：为什么 Sparks 连接的组件似乎随机跳过值而不总是递增 1？

python apache-spark spark-graphx connected-components graphframes

2018-12-17T15:45:43.353

0 投票

2 回答

1797 浏览

apache-spark - 在 pyspark 中创建图框时出错

我正在尝试运行以下代码以在我本地设置的 pyspark 中创建图框。但我收到错误。我正在使用 spark-2.4.0-bin-hadoop2.7 版本。

我收到以下错误。

apache-spark pyspark graphframes

2019-01-12T06:21:27.760

0 投票

2 回答

1902 浏览

pyspark - 如何显示/可视化由 GraphFrame 创建的图形？

我使用 GraphFrame 创建了一个图表

g = GraphFrame (vertices, edges)

除了使用 GraphFrame 提供的查询和属性分析图形之外，我还想可视化图形以在演示文稿中使用。

您是否知道以简单的方式允许这种可视化的任何工具/库/API/代码？

pyspark visualization graphframes

2019-01-15T17:32:20.680

0 投票

0 回答

437 浏览

apache-spark - 如何找出graphframe（pyspark）中特定顶点的相邻顶点？

我正在尝试使用 pyspark 中可用的 graphframe API 找出特定顶点的相邻顶点。我该怎么做？例如，考虑以下图形边缘（尽管输入是定向的，但它应该被视为双向）。

这是我的代码，它需要一个输入文件（edge.txt），比如

apache-spark pyspark apache-spark-sql spark-graphx graphframes

2019-01-27T20:05:27.023

0 投票

1 回答

203 浏览

scala - EMR Notebook Scala 内核导入图框库

在 bash shell 中运行spark-shell --packages "graphframes:graphframes:0.7.0-spark2.4-s_2.11"有效，我可以成功导入 graphframes 0.7，但是当我尝试在这样的 scala jupyter 笔记本中使用它时：

给出错误信息：

据我所知，这意味着它运行 bash 命令，但仍然找不到检索到的包。

我在运行 spark scala 内核的 EMR Notebook 上执行此操作。

我是否必须在 jupyter 环境中设置某种火花库路径？

scala apache-spark jupyter-notebook graphframes

2019-02-12T17:18:19.797

0 投票

1 回答

490 浏览

apache-spark - GraphFrames：找到无方向的主题路径

我正在使用 GraphFrames 主题在我的图中找到 3 个节点（a、b 和 c）之间的路径。这工作得很好，但不幸的是我需要找到无向的路径。

如何构建无向图或找到可以导航无向边的主题路径？

谢谢

apache-spark graphframes

2019-02-16T18:27:52.293

0 投票

1 回答

175 浏览

apache-spark - 在 Graphframes 中实现自定义算法

我想使用运行 pyspark 2.3 的 GraphFrames 在图上运行双连接图算法。

我意识到所有内置算法都在 Scala 中使用 GraphX 运行。

有没有一种方法可以在 scala - GraphX 中实现双连接算法，而不是在 GraphFrames 对象上调用它？

有人熟悉这样的解决方案吗？

apache-spark pyspark spark-graphx connected-components graphframes

2019-02-17T16:35:57.550

1 2 3 4 5 6 7 8 9 10