问题标签 [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Graphframes PageRank 性能:PySpark 与 sparklyr
我正在使用来自 Python 和 R 的 Spark/GraphFrames。当我在 Python 的小图上调用 PageRank 时,它比使用 R 慢很多。考虑到 Python 和 R 都在调用相同的图书馆?
我将尝试在下面演示这个问题。
Spark/GraphFrames 包括图的示例,例如朋友,如此链接中所述。这是一个非常小的有向图,有 6 个节点和 8 条边(请注意,该示例与其他版本的 GraphFrames 相比并不相同)。
当我用 R 运行以下代码时,几乎不需要时间来计算 PageRank:
当我使用 PySpark 运行等效程序时,需要 10 到 30 分钟:
我尝试了不同版本的 Spark 和 GraphFrames for Python 以与 R 的设置保持一致。
apache-spark - 在离线 Spark 集群中安装 graphframes 包
我有一个离线 pyspark 集群(无法访问互联网),我需要在其中安装graphframes库。
我已经从这里手动下载了$SPARK_HOME/jars/ 中添加的 jar,然后当我尝试使用它时,出现以下错误:
使用所有依赖项离线安装它的正确方法是什么?
apache-spark - GraphFrames 检测排他的出站关系
在我的图中,我需要检测没有入站关系的顶点。使用下面的示例,“a”是唯一不被任何人关联的节点。
我真的很感激在我的图中检测“a”类型节点的任何示例。
谢谢
python - Graphframes/Graphx 连接的组件跳过数字
我正在使用 Spark Graphframes 库来创建身份解析系统。我已经能够使用 spark 来查找匹配项。我的计划是使用图表来查找人与人之间的短暂联系,并为他们分配一个 id 以进行进一步分析等。
我使用了以下数据(来自公共 febrl 数据库):
顶点数据样本:
边缘数据样本:
创建的图表:
使用的连接组件:
这导致:
组件列并不总是以 1 为增量增加,但似乎随机跳过数字,我想确保以 1 为增量增加使用此数字为每个人分配一个 ID。有人知道为什么 Graphframes 会这样做吗?
当我进一步研究这一点时,对于我的开发数据框中的大约 20,000 行,大约 17% 的条目中有一个跳过。在极端情况下,差距可能高达 20-30 左右,即一排 id 是 5846,下一排是 5868。我担心的是,当我以数百万和数亿规模扩展时,id 之间的差距会变得非常大,这可能会产生问题。
TL;DR:为什么 Sparks 连接的组件似乎随机跳过值而不总是递增 1?
pyspark - 如何显示/可视化由 GraphFrame 创建的图形?
我使用 GraphFrame 创建了一个图表
g = GraphFrame (vertices, edges)
除了使用 GraphFrame 提供的查询和属性分析图形之外,我还想可视化图形以在演示文稿中使用。
您是否知道以简单的方式允许这种可视化的任何工具/库/API/代码?
apache-spark - 如何找出graphframe(pyspark)中特定顶点的相邻顶点?
我正在尝试使用 pyspark 中可用的 graphframe API 找出特定顶点的相邻顶点。我该怎么做?例如,考虑以下图形边缘(尽管输入是定向的,但它应该被视为双向)。
这是我的代码,它需要一个输入文件(edge.txt),比如
scala - EMR Notebook Scala 内核导入图框库
在 bash shell 中运行spark-shell --packages "graphframes:graphframes:0.7.0-spark2.4-s_2.11"
有效,我可以成功导入 graphframes 0.7,但是当我尝试在这样的 scala jupyter 笔记本中使用它时:
给出错误信息:
据我所知,这意味着它运行 bash 命令,但仍然找不到检索到的包。
我在运行 spark scala 内核的 EMR Notebook 上执行此操作。
我是否必须在 jupyter 环境中设置某种火花库路径?
apache-spark - GraphFrames:找到无方向的主题路径
我正在使用 GraphFrames 主题在我的图中找到 3 个节点(a、b 和 c)之间的路径。这工作得很好,但不幸的是我需要找到无向的路径。
如何构建无向图或找到可以导航无向边的主题路径?
谢谢
apache-spark - 在 Graphframes 中实现自定义算法
我想使用运行 pyspark 2.3 的 GraphFrames 在图上运行双连接图算法。
我意识到所有内置算法都在 Scala 中使用 GraphX 运行。
有没有一种方法可以在 scala - GraphX 中实现双连接算法,而不是在 GraphFrames 对象上调用它?
有人熟悉这样的解决方案吗?