“graphframes”的相关标签问题

0 投票

2 回答

215 浏览

scala - 在 GraphFrame 上聚合 AggregateMessages 时如何保留所有元素？

假设我有以下图表：

我想运行一个聚合来获取从目标顶点发送到源顶点的所有消息（不仅仅是总和、第一个、最后一个等）。所以我想运行的命令是这样的：

除了该功能all不存在（我不知道）。输出将类似于：

我可以将上述功能与first或last代替 (the non-existent)一起使用all，但他们只会给我

或者

分别。我怎样才能保留所有条目？（可能有很多，不仅仅是 1 和 2，而是 1、2、23、45 等）。谢谢。

2018-04-06T16:40:09.650

0 投票

2 回答

548 浏览

pyspark - 找不到模块'graphframes'——Jupyter

我正在尝试按照我已经阅读过的一些说明安装 graphframes 包。

我的第一次尝试是在命令行中执行此操作：

这完美地工作并且在机器中成功地完成了下载。

但是，当我尝试在我的 Jupyter 笔记本中导入包时，它会显示错误：

我的第一次尝试是将包文件夹 /graphframes 复制到 /site-packages，但我无法使用简单的 cp 命令来实现。

我是使用 spark 的新手，我确定我缺少配置的某些部分......

请你帮助我好吗？

pyspark jupyter-notebook jupyter graphframes

2018-05-08T21:07:04.730

0 投票

4 回答

6377 浏览

python - 没有名为 graphframes 的模块 Jupyter Notebook

我正在遵循此安装指南，但使用时遇到以下问题graphframes

-------------------------------------------------- ------------------------- ImportError Traceback (最近一次调用最后一次) in () ----> 1 from graphframes import *

ImportError：没有名为 graphframes 的模块

我不确定是否可以通过以下方式安装软件包。但我会感谢你的建议和帮助。

python apache-spark graphframes

2018-05-11T06:19:15.700

0 投票

1 回答

1338 浏览

apache-spark - 无法在 gcloud dataproc spark 集群上的 pyspark shell 中导入图框

通过 gcloud 控制台使用以下选项创建了一个 spark 集群

gcloud dataproc clusters create cluster-name --region us-east1 --num-masters 1 --num-workers 2 --master-machine-type n1-standard-2 --worker- machine-type n1-standard-1 - -元数据 spark-packages=graphframes:graphframes:0.2.0-spark2.1-s_2.11

在 spark 主节点上 - 启动 pyspark shell，如下所示：

pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11

...

在 spark-packages 中找到 graphframes#graphframes;0.2.0-spark2.0-s_2.11

[成功] graphframes#graphframes;0.2.0-spark2.0-s_2.11!graphframes.jar (578ms)

...

使用 Python 版本 2.7.9（默认，2016 年 6 月 29 日 13:08:31） SparkSession 可用作“火花”。

Traceback（最近一次调用最后一次）：文件“”，第 1 行，在 ImportError：没有名为 graphframes 的模块

如何在 gcloud dataproc spark 集群上加载图框？

apache-spark pyspark gcloud google-cloud-dataproc graphframes

2018-05-14T08:47:20.480

0 投票

1 回答

547 浏览

pyspark - pyspark GraphFrames 中的 Motifs

我是 pyspark 的新手，正在努力从 GraphFrame 中寻找图案。我得到的结果是空的，尽管我知道顶点和边之间存在关系。我在 Cloudera 上的 Jupyter 中使用 Spark 1.6 运行它。我的顶点和边（以及模式）的屏幕截图在这些链接中：verticesRDD和edgesRDD

我正在阅读GraphFrames但没有得到它......到目前为止我有以下代码。我哪里错了..？

pyspark pyspark-sql graphframes

2018-05-25T03:34:20.277

0 投票

1 回答

658 浏览

pyspark - GraphFrames的PageRank错误

我是 pyspark 的新手，正在尝试了解 PageRank 的工作原理。我在 Cloudera 上的 Jupyter 中使用 Spark 1.6。我的顶点和边（以及模式）的屏幕截图在这些链接中：verticesRDD和edgesRDD

到目前为止，我的代码如下：

现在当我运行 pageRank 函数时：

Py4JJavaError：调用 o98.run 时发生错误。：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 79.0 中的任务 0 失败 1 次，最近一次失败：阶段 79.0 中丢失任务 0.0（TID 2637， localhost): scala.MatchError: [null,null,[913460,765,8/31/2015 23:26,Harry Bridges Plaza (Ferry Building),50,8/31/2015 23:39,San Francisco Caltrain (Townsend)在 4),70,288,Subscriber,2139]] （类 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema）

Py4JJavaError：调用 o166.run 时发生错误。：org.graphframes.NoSuchVertexException：GraphFrame 算法给定的顶点 ID 在 Graph 中不存在。GraphFrame 中不包含顶点 ID id(v:[id: int, name: string, lat: double, long: double, dockcount: int, landmark: string, installation: string], e:[src: string, dst: string , id: int, Duration: int, 开始日期: string, 开始终端: int, 结束日期: string, 结束终端: int, Bike #: int, 订阅者类型: string, 邮政编码: string])

AttributeError：“函数”对象没有属性“resetProbability”

Py4JJavaError：调用 o188.run 时发生错误：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 90.0 中的任务 0 失败 1 次，最近一次失败：阶段 90.0 中丢失任务 0.0（TID 2641， localhost): scala.MatchError: [null,null,[913460,765,8/31/2015 23:26,Harry Bridges Plaza (Ferry Building),50,8/31/2015 23:39,San Francisco Caltrain (Townsend)在 4),70,288,Subscriber,2139]] （类 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema）

我正在阅读PageRank但不明白我哪里出错了.. 任何帮助将不胜感激

pyspark bigdata pyspark-sql pagerank graphframes

2018-05-25T08:20:55.767

0 投票

0 回答

286 浏览

apache-spark - 针对不同类型顶点的高效 GraphFrame

我需要在 spark databricks 中创建一个图形框，它将有 2 种类型的顶点，比如说 N1 和 N2 具有不同的属性。目前，我正在创建一个新的数据框，其中包含来自 N1 和 N2 的所有列，相关值为给定，其余值为 NULL，并使用该数据框创建图框。有一个更好的方法吗？

apache-spark graphframes

2018-06-19T09:29:03.793

0 投票

1 回答

983 浏览

sbt - sbt.ResolveException：未解决的依赖项：org.apache.spark#spark-core_2.11;2.1.2：未找到

我想在 spark 2.0 中使用连接的组件算法。但是，使用 sbt 0.13.15 的打包出现依赖错误。这背后的原因是什么？build.sbt文件是这样的：

Spark 2.0.0 失败：

sbt graphframes

2018-06-21T08:44:10.950

0 投票

0 回答

540 浏览

apache-spark - GraphFrames 和标签传播

正如我从Wikipedia了解到的那样，标签传播算法将标签分配给图中先前未标记的节点，并且在算法开始时，节点的一个（通常很小）子集定义了标签。

在 GraphFrames 的文档中，他们指定“网络中的每个节点最初都分配给自己的社区”。

除了用 vetex ID 初始化标签，是否可以选择节点的另一个属性？我尝试传播仅在图表中的几个节点上定义的标签。

谢谢你的帮助。

apache-spark spark-graphx graphframes

2018-06-26T13:02:27.663

0 投票

1 回答

48 浏览

apache-spark - Java中的DseGraphFrame是否支持导出图形？

根据DSE 文档，顶点和边可以导出调用g.V().hasLabel("Person").write.json("/tmp/person_v_json")。dse spark

DseGraphFrame使用Java SDK可以实现同样的效果吗？我想确定，因为我找不到write()方法。

apache-spark datastax-enterprise-graph graphframes dse-graph-frames

2018-10-04T22:46:06.377

问题标签 [graphframes]

Reference