问题标签 [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在 PySpark 中的 Graphframes 上运行 PageRank 和 BFS 函数时出错
我是 Spark 的新手,正在 Cloudera Distr for Hadoop (CDH) 上学习它。我正在尝试通过 Jupyter Notebook 执行 PageRank 和 BFS 功能,该功能是使用以下命令启动的:
以下是我尝试运行的 PageRank 函数命令,以及错误消息:
输出:
我正在尝试的 BFS 函数收到相同的错误消息:
输出:
你能告诉我这个问题吗?
谢谢,萨西。
scala - GraphFrame Spark:从特定节点获取子图
我正在 Scala 2.11 Spark 2.2 上使用 GraphFrames 构建一个简单的图形。
我可以毫无问题地创建我的图表,但我不知道如何从输入用户创建子图。
我想从大图中提取图形,例如:
从具有 3 个最大深度父节点的节点#123 获取子图。
我尝试了 connectedComponent,(请参阅https://graphframes.github.io/user-guide.html)但我不知道如何处理“compenent”列。
感谢您的帮助。
java - Apache Spark 中的分层数据操作
我在 Spark (v2.1.1) 中有一个包含分层数据的 3 列(如下所示)的数据集。
- 我的目标是根据父子层次结构为每一行分配增量编号。从图形上可以说,分层数据是树的集合。
- 根据下表,我已经根据“Global_ID”对行进行了分组。现在我想以增量顺序生成“值”列,但基于“父”和“子”列的数据层次结构。
表格表示(值是所需的输出):
树表示(期望值在每个节点旁边表示):
代码片段:
经过大量研究和博客中的许多建议后,我尝试了以下方法,但无济于事,无法达到我的场景的结果。
技术栈:
Apache Spark (v2.1.1)
爪哇 8
AWS EMR 集群(Spark 应用部署)
数据量:
- 数据集中大约 2000 万行
尝试的方法:
Spark GraphX + GraphFrames:
- 使用这种组合,我只能实现顶点和边之间的关系,但它不适合我的用例。
参考:https ://graphframes.github.io/user-guide.htmlSpark GraphX Pregel API:
- 这是我能达到预期结果的最接近的结果,但不幸的是我找不到相同的 Java 代码片段。其中一篇博客中提供的示例是 Scala 中的,我并不精通。
参考:https ://dzone.com/articles/processing-hierarchical-data-using-spark-graphx-pr
对当前方法中的替代(或)修改的任何建议都将非常有帮助,因为我完全迷失了为这个用例找出解决方案。
感谢你的帮助!谢谢!
windows - 调用 o227.run 时出错
我是新来的 spark ,我尝试创建一个图框并对此进行一些查询,这是我的代码
但结果显示以下错误:
回溯(最后一次调用):文件“”,第 1 行,在文件“C:\Users\ALI_PC\AppData\Local\Temp\spark-73d7bc01-3873-4423-ac2b-527e39608ece\userFiles-b2dd0ea9-9556-4bea -9931-915608bad9b0\graphframes_graphframes-0.5.0-spark2.1-s_2.11.jar\graphframes\graphframe.py”,第 279 行,在 connectedComponents 文件“C:\Spark\spark-2.2.1-bin-hadoop2. 7\python\lib\py4j-0.10.4-src.zip\py4j\java_gateway.py",第 1133 行,调用中 文件“C:\Spark\spark-2.2.1-bin-hadoop2.7\python\pyspark\sql\utils.py”,第 63 行,deco return f(*a, **kw) 文件“C:\ Spark\spark-2.2.1-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip\py4j\protocol.py",第 319 行,在 get_return_value py4j.protocol.Py4JJavaError: An error occurred while调用 o249.run。:java.io.IOException:未设置检查点目录。请先使用 sc.setCheckpointDir() 进行设置。在 org.graphframes.lib.ConnectedComponents$$anonfun$2.apply(ConnectedComponents.scala:280) 在 org.graphframes.lib.ConnectedComponents$$anonfun$2.apply(ConnectedComponents.scala:280) 在 scala.Option.getOrElse(Option .scala:121) 在 org.graphframes.lib.ConnectedComponents$.org$graphframes$lib$ConnectedComponents$$run(ConnectedComponents.scala:279) 在 org.graphframes。
我该如何解决这个问题,谢谢!
scala - 如何从列中获取 MapType
我一直在使用图框,现在我正在使用聚合消息。顶点模式是:
如果我尝试一下:
它有效!但我需要从 memoryLearned 中获取键和值,所以我认为它有效:
我收到了这个错误:"value filter is not a member of org.apache.spark.sql.Column"
我试图搜索如何投射或获取 MapType,但我只找到使用数据框爆炸之类的功能,但我没有 df,我只有一列......
如果我把这个:memory.getItem("aKeyFromMap")
而不是for(...
,我从 Map 得到正确的值......
createMessage
我还尝试在(一行和一列)中创建“aux”数据框以使用 df 函数,但是当我使用时.withColumn("newColumn",memory)
,它失败了..
我被阻止了..有什么想法吗?
非常感谢!!问候
scala - 将 Neo4j Graph 中的大数据拉入 Spark(Graphx 或 GraphFrame),对图做一些分析
我正在处理一个大图(3M 节点和节点之间的 1B 关系)。我有两种类型的节点,类别和用户。例如,我想使用 spark 来分析图形数据以执行类别之间的路径分析。
但我有以下询问是否有人可以提供帮助:
1)我需要加载整个图表来对火花进行分析吗?所以我尝试graphframes
使用以下scala代码将节点列表和边缘加载到spark中
与此有关的第一个问题我在节点列表中为用户节点获取空值也发生内存溢出,对此有什么建议吗?
我决定使用的GraphFrames
原因是查询应该是优化的,但是使用 RDD 我可以批量加载数据
3)使用如下密码对此数据执行距离分析(我需要测量两个类别之间的距离)有哪些可能的建议:
4)会通过AggregateMessages
帮助使用消息传递吗?我还需要将整个图表加载到火花中吗?
apache-spark - 当我在 spark pyspark 中运行图形框时出现错误消息
我已经在 spark 中安装了 GraphFrames 包,我已按照此链接中的说明进行操作:https ://www.datareply.co.uk/blog/2016/9/20/running-graph-analytics-with-spark-graphframes-a -简单示例
当我尝试执行以下代码时,我收到一条错误消息:
这是错误消息:
apache-spark - Gelly Library 可以用于 Flink 中类似于 Spark 中的 Graph Frame 的图形查询吗
Flink 图形库 Gelly 可以做图划分、图模式匹配、连接等吗?
arrays - 如何在 Spark/Scala 中将 Array[String] 转换为 Array[Any]
我正在尝试为 Graphframes 中的 parallelPersonalizedPageRank 算法生成 sourceIds 并按如下方式调用算法:
我得到的错误信息如下:
我无法弄清楚将 String 类型转换为 Any 类型的方法,或者在生成 PPRIdCS 时将 String 映射到 Any 的方法。谢谢!
scala - How to find sum/avg of sparkVector element of a DataFrame in Spark/Scala?
I have pageranks result from ParallelPersonalizedPageRank in Graphframes, which is a DataFrame with each element as sparseVector as following:
What is the best way to add all the element of the sparseVector and generatre a sum or average? I suppose we can converter each sparseVector to denseVector with toArray and traverse each array to get the result with two nested loop, and get some thing like this:
I am sure there should be better way, but I could not find much on the API docs about sparseVector operation. Thanks!