apache-spark - 如何编写一个转换函数来参考 Graphframe 对象来转换 RDD？

Question

我有一个 Graphframe 对象：g 和一个 RDD 对象：候选：

g = GraphFrame(v,e)
candidates_rdd.collect() 
#  [Row(source=u'a', target=u'b'),
#   Row(source=u'a', target=u'c'),
#   Row(source=u'e', target=u'a')]

我想在 Candidate_rdd 中计算从“源”到“目标”的路径，并使用图框的广度优先搜索生成带有键、值对 ((source, target), path_list) 的结果 rdd，其中 path_list 是来自源的路径列表达到目标。

示例输出：

(('a','b'),['a-c-b','a-d-e-b']), 
(('f','c'),[]),
(('a',d'),['a-b-e-d']

我写了以下函数：

def bfs_(row):    
    arg1 = "id = '" + row.source + "'"
    arg2 = "id = '" + row.target + "'"        
    return ((row.source, row.target), g.bfs(arg1,arg2).rdd)

results = candidates_rdd.map(bfs_)

我收到了这个错误：

Py4JError: An error occurred while calling o274.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist

我试图使图表全球化或广播它，但都不起作用。

有人可以帮我吗？

非常感谢！！

score 1 · Accepted Answer

TL;DR 这是不可能的。

Spark 不支持这样的嵌套操作。外循环必须是非分布式的：

>>> [g.bfs(arg1, arg2) for arg1, arg2 in candidates_rdd.collect()]

apache-spark - 如何编写一个转换函数来参考 Graphframe 对象来转换 RDD？

1 回答 1

Related

Reference