问题标签 [geospark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 问题

0 投票

1 回答

184 浏览

scala - 如何避免在使用 GeoSpark 的范围查询中超出 gc 开销限制？

我正在使用带有 GeoSpark 1.2.0 扩展的 Spark 2.4.3。

我有两个表作为范围距离加入。一个表 ( t1) 如果 ~ 100K 行只有一列是 Geospark 的几何图形。另一个表 ( t2) 大约有 30M 行，它由一个Int值和一个 Geospark 的几何列组成。

我想做的只是一个简单的：

我尝试了不同的配置，无论是在本地运行它还是在笔记本电脑上的本地集群上运行它（tot mem 16GB 和 8 个内核），但没有任何运气，因为程序在 GeoSpark 的“Distinct at Join”处崩溃，并有很多改组。但是我无法从 SparkSQL 语法中删除改组。我想在最大的表上添加一个额外的列 ID，例如每 200 行左右的相同整数，然后重新分区，但也没有用。

我期待一个用于 GeoSpark 索引的分区器，但我不确定它是否正常工作。

任何想法？

2019-07-27T15:32:11.307

0 投票

2 回答

10755 浏览

java - TypeError: 'JavaPackage' object is not callable (spark._jvm)

I'm setting up GeoSpark Python and after installing all the pre-requisites, I'm running the very basic code examples to test it.

I tried running it with python3 basic.py and spark-submit basic.py, both give me this error:

I'm using Java 8, Python 3, Apache Spark 2.4, my JAVA_HOME is set correctly, I'm running Linux Mint 19. My SPARK_HOME is also set:

How can I fix this?

java python apache-spark java-package geospark

2019-10-29T13:17:45.120

0 投票

1 回答

102 浏览

java - 使用 scala 将 JavapairRDD 转换为数据帧

我有以下格式的 javapairRDD

键是多边形，值是多边形中的一个点

例如：

如何将其转换javapairRDD为Dataframe三列？

df: String, double, double

这里我的第一列是一个多边形，第二列是经度，第三列是纬度

任何帮助将不胜感激

java scala apache-spark java-pair-rdd geospark

2020-02-24T22:26:09.917

0 投票

1 回答

186 浏览

eclipse - 使用 geospark 库的 Maven 包错误

目前，我正在研究地理空间分析用例，我正在使用 spark 2.4.0 和 geospark 库。当我尝试使用 eclipse 创建应用程序 jar 文件时，它给了我以下错误。请你帮我解决下面的maven依赖错误？

Maven文件：

错误：GFence 构建路径的 geospark-sql_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误，可以在编译器首选项页面中禁用此检查。说明资源路径位置类型 GFence 构建路径的 geospark-viz_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误，可以在编译器首选项页面中禁用此检查。GFence 构建路径的 kudu-spark2_2.11-1.6.0.jar 与不兼容的 Scala 版本（2.11.0）交叉编译。如果此报告有误，可以在编译器首选项页面中禁用此检查。

GeoSpark 版本 = 1.2.0

Apache Spark 版本 = 2.4.0

JRE 版本 = 1.8.0

API 类型 = Scala

谢谢，苏米特

eclipse maven apache-spark apache-spark-sql geospark

2020-03-24T11:42:17.247

0 投票

1 回答

492 浏览

apache-spark - Pyspark：如何改善空间交叉点？

我正在使用pysparkDatabriks，我有一个如下所示的数据点表

还有另一个多边形表（来自 shapefile）

我想为每个点分配一个COUNTYNS

我正在用geospark函数来做。我正在执行以下操作：

此查询适用于小数据集，但对于较大的数据集则失败。

我想知道是否有办法优化这个过程。

apache-spark pyspark geospatial azure-databricks geospark

2020-03-29T06:19:19.450

0 投票

1 回答

414 浏览

python - Pyspark：为什么 ST_intersects 函数返回重复的行？

我正在使用的ST_Intersects功能geospark使点和多边形之间的交集。

为什么每行返回一个重复项？

python mysql apache-spark gis geospark

2020-03-30T12:19:42.500

0 投票

1 回答

27 浏览

apache-spark - 我正在使用IDEA开发Spark Demo，本地模式下如何设置spark内存大小的参数？

我在本地模式下运行 geoSpark Demo，而不是独立模式。数据大小约为 5GB。我收到 OOM 错误。我想在本地模式下更改 spark 内存，怎么做？

apache-spark geospark

2020-06-10T08:38:10.537

0 投票

1 回答

411 浏览

python - ClassNotFoundException geosparksql.UDT.GeometryUDT

我一直在尝试将 GeoPandas 数据框转换为 PySpark 数据框，但没有成功。目前，我已经扩展了 DataFrame 类以将 GPD DF 转换为 Spark DF，如下所示：

前面的代码编译没有错误，但是当尝试从 DataFrame 中“获取”一个项目时，我收到以下错误：

问题在于 GDP DF 的“几何”列，因为没有它它可以完美运行。'geometry' 列具有 Shapely Polygon 对象，这些对象应被 GeoSpark 的 GeometryType 类识别。

有没有办法安装 org.apache.spark.sql.geosparksql.UDT.GeometryUDT？我正在使用谷歌 Colab。

python pyspark geospark

2020-06-15T10:08:54.747

0 投票

0 回答

163 浏览

java - 使用 Spark Java 的 GeoSpark 库

我有以下数据框 o spark ：

我想从 GeoSpark 应用 ST_Geomfromtext ，但我不知道该怎么做

我尝试了以下代码，但 id 对我不起作用

我需要你的帮助。

谢谢

java sql apache-spark geospark

2020-07-10T15:23:20.253

0 投票

1 回答

113 浏览

java - 使用 Spark/java 的 SQL 查询和数据帧

我是 spark 的初学者，我陷入了如何使用数据框发出 sql 请求。

我有以下两个数据框。

我想执行以下请求。

我真的卡住了，我应该加入两个数据框还是什么？我尝试像这样使用 id 和 idZone 加入两个数据框：

但在我看来，加入并不是正确的选择。

我需要你帮忙。

谢谢

java sql apache-spark geosparql geospark

2020-07-13T18:31:29.183

1 2 3 4 5 6 7 8 9 10

问题标签 [geospark]

Reference