问题标签 [geospark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
184 浏览

scala - 如何避免在使用 GeoSpark 的范围查询中超出 gc 开销限制?

我正在使用带有 GeoSpark 1.2.0 扩展的 Spark 2.4.3。

我有两个表作为范围距离加入。一个表 ( t1) 如果 ~ 100K 行只有一列是 Geospark 的几何图形。另一个表 ( t2) 大约有 30M 行,它由一个Int值和一个 Geospark 的几何列组成。

我想做的只是一个简单的:

我尝试了不同的配置,无论是在本地运行它还是在笔记本电脑上的本地集群上运行它(tot mem 16GB 和 8 个内核),但没有任何运气,因为程序在 GeoSpark 的“Distinct at Join”处崩溃,并有很多改组。但是我无法从 SparkSQL 语法中删除改组。我想在最大的表上添加一个额外的列 ID,例如每 200 行左右的相同整数,然后重新分区,但也没有用。

我期待一个用于 GeoSpark 索引的分区器,但我不确定它是否正常工作。

任何想法?

0 投票
2 回答
10755 浏览

java - TypeError: 'JavaPackage' object is not callable (spark._jvm)

I'm setting up GeoSpark Python and after installing all the pre-requisites, I'm running the very basic code examples to test it.

I tried running it with python3 basic.py and spark-submit basic.py, both give me this error:

I'm using Java 8, Python 3, Apache Spark 2.4, my JAVA_HOME is set correctly, I'm running Linux Mint 19. My SPARK_HOME is also set:

How can I fix this?

0 投票
1 回答
102 浏览

java - 使用 scala 将 JavapairRDD 转换为数据帧

我有以下格式的 javapairRDD

键是多边形,值是多边形中的一个点

例如:

如何将其转换javapairRDDDataframe三列?

df: String, double, double

这里我的第一列是一个多边形,第二列是经度,第三列是纬度

任何帮助将不胜感激

0 投票
1 回答
186 浏览

eclipse - 使用 geospark 库的 Maven 包错误

目前,我正在研究地理空间分析用例,我正在使用 spark 2.4.0 和 geospark 库。当我尝试使用 eclipse 创建应用程序 jar 文件时,它给了我以下错误。请你帮我解决下面的maven依赖错误?

Maven文件:

错误:GFence 构建路径的 geospark-sql_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。说明 资源路径位置类型 GFence 构建路径的 geospark-viz_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。GFence 构建路径的 kudu-spark2_2.11-1.6.0.jar 与不兼容的 Scala 版本(2.11.0)交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。

GeoSpark 版本 = 1.2.0

Apache Spark 版本 = 2.4.0

JRE 版本 = 1.8.0

API 类型 = Scala

谢谢, 苏米特

0 投票
1 回答
492 浏览

apache-spark - Pyspark:如何改善空间交叉点?

我正在使用pysparkDatabriks,我有一个如下所示的数据点表

还有另一个多边形表(来自 shapefile)

我想为每个点分配一个COUNTYNS

我正在用geospark函数来做。我正在执行以下操作:

此查询适用于小数据集,但对于较大的数据集则失败。

我想知道是否有办法优化这个过程。

0 投票
1 回答
414 浏览

python - Pyspark:为什么 ST_intersects 函数返回重复的行?

我正在使用的ST_Intersects功能geospark使点和多边形之间的交集。

为什么每行返回一个重复项?

0 投票
1 回答
27 浏览

apache-spark - 我正在使用IDEA开发Spark Demo,本地模式下如何设置spark内存大小的参数?

我在本地模式下运行 geoSpark Demo,而不是独立模式。数据大小约为 5GB。我收到 OOM 错误。我想在本地模式下更改 spark 内存,怎么做?

0 投票
1 回答
411 浏览

python - ClassNotFoundException geosparksql.UDT.GeometryUDT

我一直在尝试将 GeoPandas 数据框转换为 PySpark 数据框,但没有成功。目前,我已经扩展了 DataFrame 类以将 GPD DF 转换为 Spark DF,如下所示:

前面的代码编译没有错误,但是当尝试从 DataFrame 中“获取”一个项目时,我收到以下错误:

问题在于 GDP DF 的“几何”列,因为没有它它可以完美运行。'geometry' 列具有 Shapely Polygon 对象,这些对象应被 GeoSpark 的 GeometryType 类识别。

有没有办法安装 org.apache.spark.sql.geosparksql.UDT.GeometryUDT?我正在使用谷歌 Colab。

0 投票
0 回答
163 浏览

java - 使用 Spark Java 的 GeoSpark 库

我有以下数据框 o spark :

我想从 GeoSpark 应用 ST_Geomfromtext ,但我不知道该怎么做

我尝试了以下代码,但 id 对我不起作用

我需要你的帮助 。

谢谢

0 投票
1 回答
113 浏览

java - 使用 Spark/java 的 SQL 查询和数据帧

我是 spark 的初学者,我陷入了如何使用数据框发出 sql 请求。

我有以下两个数据框。

我想执行以下请求。

我真的卡住了,我应该加入两个数据框还是什么?我尝试像这样使用 id 和 idZone 加入两个数据框:

但在我看来,加入并不是正确的选择。

我需要你帮忙 。

谢谢