问题标签 [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 使用 Spark Graphframes 进行分区
我正在使用 Spark Graphframes 处理一个较大的 (?) 图(6000 万个顶点和 95 亿条边)。基础数据并不大——顶点在磁盘上占用大约 500mb,边大约是 40gb。由于 java 堆内存不足的问题,我的容器经常关闭,但我认为根本问题是 graphframe 不断地洗牌数据(我看到洗牌读/写高达 150gb)。有没有办法有效地划分 Graphframe 或底层边/顶点以减少 shuffle?
python-3.x - 找不到模块'graphframes'
当我在命令行中输入:
pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11
它会运作良好。但是当我想使用 ipython 启动我的 pyspark 并使用 graphframes 包时,它不起作用。
当我在命令行中输入:
PYSPARK_DRIVER_PYTHON=ipython pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11
错误是:找不到模块'graphframes'
apache-spark - spark graphframes 有状态的主题
图形框架有一个很好的有状态主题的例子。如何明确返回计数?如您所见,输出仅包含顶点和朋友,但不包含计数。
如何将其修改为不(仅)可以访问边缘但也可以访问顶点的标签?
即我怎么能提高计数来计数
- 每个顶点的年龄 > 30 的朋友
朋友的百分比Greater30 / allFriends
哪个会输出
shortest-path - 使用 GraphFrames Spark 在加权有向图中查找最短路径
spark的graphFrames包很棒。我可以使用命令找到从“a”到“d”的最短路径
但是如何定义加权图并计算两个节点之间的最短路径?
谢谢。
apache-spark - 火花图帧聚合消息多次迭代
Spark graphFrames 文档有一个很好的示例如何应用聚合消息功能。
对我来说,它似乎只计算单个顶点和第一个顶点的朋友/连接,而不是作为 graphXs pregel 运算符更深入地迭代到图中。
我如何在graphFrames中完成这样的迭代,以及使用类似于这里如何处理迭代的聚合消息https://github.com/sparkling-graph/sparkling-graph/blob/master/operators/src/main/scala/ml/ graphX 中的sparkling/graph/operators/measures/vertex/eigenvector/ EigenvectorCentrality.scala?
http://graphframes.github.io/user-guide.html#message-passing-via-aggregatemessages
scala - Spark AWS emr checkpoint location
I'm running a spark job on EMR but need to create a checkpoint. I tried using s3 but got this error message
Here is my sample code
How can I checkpoint on AWS EMR?
scala - 如何使用 Spark Graphx 或 Graphframe 创建方向图
我正在尝试在我的数据集上但在有向图上运行连接组件算法。我不希望连接的组件在边缘的两个方向上横向。
这是我的示例代码
结果:
请问我怎样才能做到这一点?
apache-spark - 有没有办法在不使用映射的情况下迭代 Spark RDD 分区?
我目前正在使用graphframes
生成图,然后我需要找到所有顶点之间的路径。(即测试所有顶点对以找到它们之间的最小路径。)
两者都bfs
生成数据帧find
,graphframes
这意味着它们不能用于任何类型的映射函数。有没有办法解决这个问题?(例如,对分区中的所有 RDD 条目执行 for 循环 [mapPartitions
不起作用,我试过了。])
apache-spark - 内部带有 RDD 的 Spark Map
我知道 Spark 不允许您使用在其内部map
或其任何变体中生成 RDD 的函数。有解决办法吗?例如,我可以对分区中的所有 RDD 执行标准循环迭代吗?(例如,有没有一种方法可以将 RDD 转换为每个节点上的列表,以便每个节点包含它所携带的条目的列表?)
我正在尝试使用 in 进行一些图形处理graphframes
,pyspark
但目前无法执行我想要的操作。
apache-spark - 可变长度主题 GraphFrames
我正在尝试使用 GraphFrames 查找从节点 A 到节点 B 且 pathLength < 10 的所有路径。我可以使用以下代码来做到这一点,但是,我想知道是否有更好的方法来做到这一点。