问题标签 [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 更改 Spark GraphFrame 中的字符串列
我在 spark 2.0 和 scala 中使用 GraphFrame。
我需要从字符串类型的列中删除双引号(在许多列中)。我正在尝试使用 UDF 这样做,如下所示:
由于 GraphFrame 不支持 Any 类型,因此出现以下错误。
java.lang.UnsupportedOperationException:不支持 Any 类型的架构
什么是解决方法?
apache-spark - GraphFrames 连接组件性能
当我尝试使用图框生成连接的组件时,它花费的时间比我预期的要长得多。我在 spark 2.1、graphframes 0.5 和带有 3 个 r4.xlarge 实例的 AWS EMR 上运行。当为大约 1200 万条边的图生成连接组件时,大约需要 3 个小时。
代码如下。我对火花相当陌生,所以任何建议都会很棒。
datastax-enterprise - 使用 SparkSession 在 Java 或 Scala 中创建 DSEGraphFrames
我正在尝试在 java 或 scala 中获取我的 DSE 图的 DSEGraphFrame。我正在使用博客文档,如下
它们都需要火花会话(在 scala 中是隐式的)。我的问题是如何创建 SparkSession spark
?我已经尝试自己创建它,但构建器无法解析主:
python - PYSPARK:如何可视化 GraphFrame?
假设我创建了以下图表。我的问题是如何可视化它?
graph - 在 pyspark 中有效地计算连通分量
我正在尝试为城市中的朋友找到连接的组件。我的数据是具有城市属性的边列表。
城市 | SRC | 目的地
休斯顿凯尔->本尼
休斯顿本尼 -> 查尔斯
休斯顿查尔斯 -> 丹尼
奥马哈卡罗尔->布赖恩
等等
我知道 pyspark 的 GraphX 库的 connectedComponents 函数将遍历图的所有边以找到连接的组件,我想避免这种情况。我该怎么做?
编辑:我以为我可以做类似的事情
从数据框 groupby 城市中选择 connected_components(*)
其中 connected_components 生成项目列表。
eclipse - Eclipse IDE for Scala:类路径中缺少符号
当我在 Eclipse Oxygen(ubuntu 16.04)中构建我的 Scala-Spark 项目时,它在“问题”控制台中返回了这个问题:
错误开启:
如何解决这个问题?
更新 这是我的 pom.xml Maven 配置:
scala - Scala/Spark 中的图框错误
我在 Scala 2.11 中将这段代码行写入 Databricks:
但它返回我这些错误:
预先感谢真诚的安东尼奥
scala - 使用 scala 2.11 添加 GraphFrames 构建时,Build.sbt 中断
我正在尝试将 GraphFrames 添加到我的 scala spark 应用程序中,当我添加基于 2.10 的应用程序时一切正常。但是,一旦我尝试使用 Scala 2.11 构建的 GraphFrames 构建它,它就会中断。
问题是使用了冲突的 scala 版本(2.10 和 2.11)。我收到以下错误:
但是,我无法解决导致此问题的原因。这是我的完整 build.sbt:
谁能查明哪个依赖项基于 scala 2.10 导致构建失败?
scala - GraphFrames 中的 aggregateMessages 没有输出
我只是从 GraphFrames 开始,虽然我正在关注文档,但我无法从 aggregateMessages 函数获得任何结果(它返回一个空数据帧)。这是我的问题的一个简化示例:我调用了 GraphFrames 对象testGraph
,这样我的 vertexRDD 仅包含一个Y
没有顶点属性的顶点,而我的 edgeRDD 包含如下两条记录:
现在,我想实现一个简单的算法,将值发送min_ts1
到dst
,然后发送min_ts2
到src
。我用来实现这个算法的代码是:
我意识到这里有一些空值,但无论如何我都希望消息传递算法执行以下操作:查看第一条记录,并发送to的消息和20
toY
的消息。然后查看第二条记录,发送一条to X 的消息和一条to的消息。最后,我希望结果显示消息的总和是,并且结果中没有记录,因为它不包含在 vertexRDD 中。如果包含在 vertexRDD 中,我希望结果是简单的,因为两条消息都是.null
X
null
-10
Y
Y
10
X
X
null
null
但是,我得到的是一个空的 RDD。有人可以帮我理解为什么我得到一个空的结果吗?