“graphframes”的相关标签问题

0 投票

2 回答

915 浏览

apache-spark - 如何在 HDInsight 群集上的 SPARK 中使用图形框架

我已经在 HDInsight 上设置了一个 SPARK 集群，并且正在尝试使用本教程使用 GraphFrames。

我已经在集群创建期间使用了自定义脚本来启用 Spark 集群上的GraphX，如此处所述。

当我运行记事本时，

我收到以下错误

我尝试graphframes使用以下命令通过 Jupyter 从 spark 终端安装：

但我仍然无法让它工作。我是 Spark 和 HDInsight 的新手，所以有人可以指出我需要在这个集群上安装什么才能让它工作。

2016-03-28T05:14:41.867

0 投票

4 回答

4587 浏览

pyspark - 导入 PySpark 包

我已经下载了graphframes包（从这里）并将其保存在我的本地磁盘上。现在，我想使用它。所以，我使用以下命令：

除了新graphframes包外，所有 pyspark 功能都按预期工作：每当我尝试import graphframes使用ImportError. 当我检查时sys.path，我可以看到以下两条路径：

/tmp/spark-1eXXX/userFiles-9XXX/graphframes_graphframes-0.1.0-spark1.5.jar和/tmp/spark-1eXXX/userFiles-9XXX/graphframes-0.1.0-spark1.5.jar，但是这些文件不存在。而且，/tmp/spark-1eXXX/userFiles-9XXX/目录是空的。

我错过了什么？

pyspark graphframes

2016-04-04T07:49:05.330

0 投票

1 回答

547 浏览

apache-spark - GraphFrames api 是否支持创建二分图？

GraphFrames api 是否支持在当前版本中创建二分图？

当前版本：0.1.0

火花版本：1.6.1

apache-spark graphframes

2016-04-13T14:37:26.363

0 投票

1 回答

201 浏览

apache-spark - 在 Spark 中创建复杂 Column 结构的快捷方式

我正在将一些Graph.pregel算法移植到GraphFrame.aggregateMessages. 我发现GraphFrameAPI 有点麻烦。

在GraphAPI 中，我可以发送一个case class作为我的消息类型。但在GraphFrameAPI 中，aggregateMessages.sendToSrc可以.sendToDst使用 SQL 表达式String或Column. 我发现这很强大，因为它是一个痛苦的屁股。

假设你有：

使用GraphXandpregel函数，我可以构建一个sendMsg返回的函数，Iterator[(VertexId,Send)]它可能类似于：Iterator((1L, Send(Vote(yay = true), from = 2L) ))

GraphFrames我必须构建一个与Column具有相同目的的Iterator[(VertexId,Send)]，理想情况下不完全放弃我已经定义的case classes（比上面的示例更复杂）。

有什么捷径可以做到这一点？

到目前为止我得到了什么：

case class将 a 的实例转换为相应的结构非常容易。这主要让我到达那里：

这让我可以：

我必须稍微修补一下架构以使其正常工作，但在我开始这样做之前，我意识到这是一种完全没用的方法。您永远不会真正想将case class值转换为struct--ccToStruct(Send(Vote(true, 1L), 123L))创建一个非常无用的消息。它相当于发送一个lit(Send(..))值——除了lit()不支持案例类。

您想要做的是将lit值与AM.dst("*")和AM.src("*")列混合和匹配，但这样做与case class. （我曾想过完全放弃案例类，但我有一个消息，只要我继续使用案例类，这种逻辑就很容易移植。UDAF）sum

我相信答案是能够创建这样的结构：

然后将其转换为我的案例类的Column使用struct()和模式。

如果没有人有更好的方法来做到这一点（甚至可能有人这样做），我稍后会用解决方案回答我自己的问题。

apache-spark spark-graphx graphframes

2016-04-22T14:51:41.737

0 投票

1 回答

2137 浏览

apache-spark - 查找特定节点的连接组件而不是整个图（GraphFrame/GraphX）

我在 Spark 中创建了一个 GraphFrame，该图当前如下所示：

基本上，会有很多这样的子图，其中每个子图都将相互断开。给定一个特定的节点 ID，我想在子图中找到所有其他节点。例如，如果给定节点 ID 1，则图将遍历并返回 2、10、20、3、30。

我创建了一个主题，但它没有给出正确的结果。

不幸的是，连通分量函数考虑了整个图。是否可以使用GraphFrame/GraphX在给定特定节点 ID 的情况下获取断开连接的子图中的所有节点？

apache-spark spark-dataframe spark-graphx graphframes

2016-05-26T14:41:44.883

0 投票

3 回答

1823 浏览

python - PySpark GraphFrame 的正确子图

graphframes是一个基于 PySpark DataFrames 的网络分析工具。以下代码是教程子图示例的修改版本：

与原始图相比，人们会期望新图g2将包含更少的节点和更少的边g。然而，这种情况并非如此：

给出输出：

很明显，结果图包含不存在节点的边。更令人不安的是g.degrees和g2.degrees是相同的。这意味着至少有一些图形功能忽略了节点信息。有没有一种好方法可以确保仅使用提供的参数和参数GraphFrame的交集来创建图形？nodesedges

python pyspark graphframes

2016-06-09T12:40:43.923

0 投票

1 回答

1923 浏览

python - 在 PySpark 中将 GraphFrames ShortestPath Map 转换为 DataFrame 行

我试图找到从 GraphFrames 函数 shortestPaths 获取 Map 输出并将每个顶点的距离映射展平为新 DataFrame 中的单独行的最有效方法。通过将距离列拉到字典中，然后从那里转换为熊猫数据框，然后再转换回 Spark 数据框，我已经能够非常笨拙地做到这一点，但我知道必须有更好的方法。

我想要的是获取上面的输出并拉平距离，同时将 id 保持为如下所示：

谢谢。

python apache-spark pyspark spark-dataframe graphframes

2016-06-18T14:56:03.193

0 投票

1 回答

90 浏览