问题标签 [graphframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
215 浏览

scala - 在 GraphFrame 上聚合 AggregateMessages 时如何保留所有元素?

假设我有以下图表:

我想运行一个聚合来获取从目标顶点发送到源顶点的所有消息(不仅仅是总和、第一个、最后一个等)。所以我想运行的命令是这样的:

除了该功能all不存在(我不知道)。输出将类似于:

我可以将上述功能与firstlast代替 (the non-existent)一起使用all,但他们只会给我

或者

分别。我怎样才能保留所有条目?(可能有很多,不仅仅是 1 和 2,而是 1、2、23、45 等)。谢谢。

0 投票
2 回答
548 浏览

pyspark - 找不到模块'graphframes'——Jupyter

我正在尝试按照我已经阅读过的一些说明安装 graphframes 包。

我的第一次尝试是在命令行中执行此操作:

这完美地工作并且在机器中成功地完成了下载。

但是,当我尝试在我的 Jupyter 笔记本中导入包时,它会显示错误:

我的第一次尝试是将包文件夹 /graphframes 复制到 /site-packages,但我无法使用简单的 cp 命令来实现。

我是使用 spark 的新手,我确定我缺少配置的某些部分......

请你帮助我好吗?

0 投票
4 回答
6377 浏览

python - 没有名为 graphframes 的模块 Jupyter Notebook

我正在遵循安装指南,但使用时遇到以下问题graphframes

-------------------------------------------------- ------------------------- ImportError Traceback (最近一次调用最后一次) in () ----> 1 from graphframes import *

ImportError:没有名为 graphframes 的模块

我不确定是否可以通过以下方式安装软件包。但我会感谢你的建议和帮助。

0 投票
1 回答
1338 浏览

apache-spark - 无法在 gcloud dataproc spark 集群上的 pyspark shell 中导入图框

通过 gcloud 控制台使用以下选项创建了一个 spark 集群

gcloud dataproc clusters create cluster-name --region us-east1 --num-masters 1 --num-workers 2 --master-machine-type n1-standard-2 --worker- machine-type n1-standard-1 - -元数据 spark-packages=graphframes:graphframes:0.2.0-spark2.1-s_2.11

在 spark 主节点上 - 启动 pyspark shell,如下所示:

pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11

...

在 spark-packages 中找到 graphframes#graphframes;0.2.0-spark2.0-s_2.11

[成功] graphframes#graphframes;0.2.0-spark2.0-s_2.11!graphframes.jar (578ms)

...

...

使用 Python 版本 2.7.9(默认,2016 年 6 月 29 日 13:08:31) SparkSession 可用作“火花”。

Traceback(最近一次调用最后一次):文件“”,第 1 行,在 ImportError:没有名为 graphframes 的模块

如何在 gcloud dataproc spark 集群上加载图框?

0 投票
1 回答
547 浏览

pyspark - pyspark GraphFrames 中的 Motifs

我是 pyspark 的新手,正在努力从 GraphFrame 中寻找图案。我得到的结果是空的,尽管我知道顶点和边之间存在关系。我在 Cloudera 上的 Jupyter 中使用 Spark 1.6 运行它。我的顶点和边(以及模式)的屏幕截图在这些链接中:verticesRDDedgesRDD

我正在阅读GraphFrames但没有得到它......到目前为止我有以下代码。我哪里错了..?

0 投票
1 回答
658 浏览

pyspark - GraphFrames的PageRank错误

我是 pyspark 的新手,正在尝试了解 PageRank 的工作原理。我在 Cloudera 上的 Jupyter 中使用 Spark 1.6。我的顶点和边(以及模式)的屏幕截图在这些链接中:verticesRDDedgesRDD

到目前为止,我的代码如下:

现在当我运行 pageRank 函数时:

Py4JJavaError:调用 o98.run 时发生错误。:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 79.0 中的任务 0 失败 1 次,最近一次失败:阶段 79.0 中丢失任务 0.0(TID 2637, localhost): scala.MatchError: [null,null,[913460,765,8/31/2015 23:26,Harry Bridges Plaza (Ferry Building),50,8/31/2015 23:39,San Francisco Caltrain (Townsend)在 4),70,288,Subscriber,2139]] (类 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema)

Py4JJavaError:调用 o166.run 时发生错误。:org.graphframes.NoSuchVertexException:GraphFrame 算法给定的顶点 ID 在 Graph 中不存在。GraphFrame 中不包含顶点 ID id(v:[id: int, name: string, lat: double, long: double, dockcount: int, landmark: string, installation: string], e:[src: string, dst: string , id: int, Duration: int, 开始日期: string, 开始终端: int, 结束日期: string, 结束终端: int, Bike #: int, 订阅者类型: string, 邮政编码: string])

AttributeError:“函数”对象没有属性“resetProbability”

Py4JJavaError:调用 o188.run 时发生错误:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 90.0 中的任务 0 失败 1 次,最近一次失败:阶段 90.0 中丢失任务 0.0(TID 2641, localhost): scala.MatchError: [null,null,[913460,765,8/31/2015 23:26,Harry Bridges Plaza (Ferry Building),50,8/31/2015 23:39,San Francisco Caltrain (Townsend)在 4),70,288,Subscriber,2139]] (类 org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema)

我正在阅读PageRank但不明白我哪里出错了.. 任何帮助将不胜感激

0 投票
0 回答
286 浏览

apache-spark - 针对不同类型顶点的高效 GraphFrame

我需要在 spark databricks 中创建一个图形框,它将有 2 种类型的顶点,比如说 N1 和 N2 具有不同的属性。目前,我正在创建一个新的数据框,其中包含来自 N1 和 N2 的所有列,相关值为给定,其余值为 NULL,并使用该数据框创建图框。有一个更好的方法吗?

0 投票
1 回答
983 浏览

sbt - sbt.ResolveException:未解决的依赖项:org.apache.spark#spark-core_2.11;2.1.2:未找到

我想在 spark 2.0 中使用连接的组件算法。但是,使用 sbt 0.13.15 的打包出现依赖错误。这背后的原因是什么?build.sbt文件是这样的:

Spark 2.0.0 失败:

0 投票
0 回答
540 浏览

apache-spark - GraphFrames 和标签传播

正如我从Wikipedia了解到的那样,标签传播算法将标签分配给图中先前未标记的节点,并且在算法开始时,节点的一个(通常很小)子集定义了标签。

在 GraphFrames 的文档中,他们指定“网络中的每个节点最初都分配给自己的社区”

除了用 vetex ID 初始化标签,是否可以选择节点的另一个属性?我尝试传播仅在图表中的几个节点上定义的标签。

谢谢你的帮助。

0 投票
1 回答
48 浏览

apache-spark - Java中的DseGraphFrame是否支持导出图形?

根据DSE 文档,顶点和边可以导出调用g.V().hasLabel("Person").write.json("/tmp/person_v_json")dse spark

DseGraphFrame使用Java SDK可以实现同样的效果吗?我想确定,因为我找不到write()方法。