问题标签 [graphframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1816 浏览

apache-spark - 使用 Spark Graphframes 进行分区

我正在使用 Spark Graphframes 处理一个较大的 (?) 图(6000 万个顶点和 95 亿条边)。基础数据并不大——顶点在磁盘上占用大约 500mb,边大约是 40gb。由于 java 堆内存不足的问题,我的容器经常关闭,但我认为根本问题是 graphframe 不断地洗牌数据(我看到洗牌读/写高达 150gb)。有没有办法有效地划分 Graphframe 或底层边/顶点以减少 shuffle?

0 投票
1 回答
465 浏览

python-3.x - 找不到模块'graphframes'

当我在命令行中输入:

pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11

它会运作良好。但是当我想使用 ipython 启动我的 pyspark 并使用 graphframes 包时,它不起作用。

当我在命令行中输入:

PYSPARK_DRIVER_PYTHON=ipython pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11

错误是:找不到模块'graphframes'

0 投票
1 回答
575 浏览

apache-spark - spark graphframes 有状态的主题

图形框架有一个很好的有状态主题的例子。如何明确返回计数?如您所见,输出仅包含顶点和朋友,但不包含计数。

如何将其修改为不(仅)可以访问边缘但也可以访问顶点的标签?

即我怎么能提高计数来计数

哪个会输出

0 投票
0 回答
652 浏览

shortest-path - 使用 GraphFrames Spark 在加权有向图中查找最短路径

spark的graphFrames包很棒。我可以使用命令找到从“a”到“d”的最短路径

但是如何定义加权图并计算两个节点之间的最短路径?

谢谢。

0 投票
0 回答
1520 浏览

apache-spark - 火花图帧聚合消息多次迭代

Spark graphFrames 文档有一个很好的示例如何应用聚合消息功能。

对我来说,它似乎只计算单个顶点和第一个顶点的朋友/连接,而不是作为 graphXs pregel 运算符更深入地迭代到图中。

我如何在graphFrames中完成这样的迭代,以及使用类似于这里如何处理迭代的聚合消息https://github.com/sparkling-graph/sparkling-graph/blob/master/operators/src/main/scala/ml/ graphX 中的sparkling/graph/operators/measures/vertex/eigenvector/ EigenvectorCentrality.scala?

http://graphframes.github.io/user-guide.html#message-passing-via-aggregatemessages

0 投票
3 回答
2135 浏览

scala - Spark AWS emr checkpoint location

I'm running a spark job on EMR but need to create a checkpoint. I tried using s3 but got this error message

Here is my sample code

How can I checkpoint on AWS EMR?

0 投票
1 回答
1290 浏览

scala - 如何使用 Spark Graphx 或 Graphframe 创建方向图

我正在尝试在我的数据集上但在有向图上运行连接组件算法。我不希望连接的组件在边缘的两个方向上横向。

这是我的示例代码

结果:

请问我怎样才能做到这一点?

0 投票
0 回答
743 浏览

apache-spark - 有没有办法在不使用映射的情况下迭代 Spark RDD 分区?

我目前正在使用graphframes生成图,然后我需要找到所有顶点之间的路径。(即测试所有顶点对以找到它们之间的最小路径。)

两者都bfs生成数据帧findgraphframes这意味着它们不能用于任何类型的映射函数。有没有办法解决这个问题?(例如,对分区中的所有 RDD 条目执行 for 循环 [mapPartitions不起作用,我试过了。])

0 投票
0 回答
227 浏览

apache-spark - 内部带有 RDD 的 Spark Map

我知道 Spark 不允许您使用在其内部map或其任何变体中生成 RDD 的函数。有解决办法吗?例如,我可以对分区中的所有 RDD 执行标准循环迭代吗?(例如,有没有一种方法可以将 RDD 转换为每个节点上的列表,以便每个节点包含它所携带的条目的列表?)

我正在尝试使用 in 进行一些图形处理graphframespyspark但目前无法执行我想要的操作。

0 投票
1 回答
389 浏览

apache-spark - 可变长度主题 GraphFrames

我正在尝试使用 GraphFrames 查找从节点 A 到节点 B 且 pathLength < 10 的所有路径。我可以使用以下代码来做到这一点,但是,我想知道是否有更好的方法来做到这一点。