问题标签 [geospark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 如何避免在使用 GeoSpark 的范围查询中超出 gc 开销限制?
我正在使用带有 GeoSpark 1.2.0 扩展的 Spark 2.4.3。
我有两个表作为范围距离加入。一个表 ( t1
) 如果 ~ 100K 行只有一列是 Geospark 的几何图形。另一个表 ( t2
) 大约有 30M 行,它由一个Int
值和一个 Geospark 的几何列组成。
我想做的只是一个简单的:
我尝试了不同的配置,无论是在本地运行它还是在笔记本电脑上的本地集群上运行它(tot mem 16GB 和 8 个内核),但没有任何运气,因为程序在 GeoSpark 的“Distinct at Join”处崩溃,并有很多改组。但是我无法从 SparkSQL 语法中删除改组。我想在最大的表上添加一个额外的列 ID,例如每 200 行左右的相同整数,然后重新分区,但也没有用。
我期待一个用于 GeoSpark 索引的分区器,但我不确定它是否正常工作。
任何想法?
java - TypeError: 'JavaPackage' object is not callable (spark._jvm)
I'm setting up GeoSpark Python and after installing all the pre-requisites, I'm running the very basic code examples to test it.
I tried running it with python3 basic.py
and spark-submit basic.py
, both give me this error:
I'm using Java 8, Python 3, Apache Spark 2.4, my JAVA_HOME
is set correctly, I'm running Linux Mint 19. My SPARK_HOME
is also set:
How can I fix this?
java - 使用 scala 将 JavapairRDD 转换为数据帧
我有以下格式的 javapairRDD
键是多边形,值是多边形中的一个点
例如:
如何将其转换javapairRDD
为Dataframe
三列?
df: String, double, double
这里我的第一列是一个多边形,第二列是经度,第三列是纬度
任何帮助将不胜感激
eclipse - 使用 geospark 库的 Maven 包错误
目前,我正在研究地理空间分析用例,我正在使用 spark 2.4.0 和 geospark 库。当我尝试使用 eclipse 创建应用程序 jar 文件时,它给了我以下错误。请你帮我解决下面的maven依赖错误?
Maven文件:
错误:GFence 构建路径的 geospark-sql_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。说明 资源路径位置类型 GFence 构建路径的 geospark-viz_2.3-1.2.0.jar 与不兼容版本的 Scala (2.3.0) 交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。GFence 构建路径的 kudu-spark2_2.11-1.6.0.jar 与不兼容的 Scala 版本(2.11.0)交叉编译。如果此报告有误,可以在编译器首选项页面中禁用此检查。
GeoSpark 版本 = 1.2.0
Apache Spark 版本 = 2.4.0
JRE 版本 = 1.8.0
API 类型 = Scala
谢谢, 苏米特
apache-spark - Pyspark:如何改善空间交叉点?
我正在使用pyspark
Databriks,我有一个如下所示的数据点表
还有另一个多边形表(来自 shapefile)
我想为每个点分配一个COUNTYNS
我正在用geospark
函数来做。我正在执行以下操作:
此查询适用于小数据集,但对于较大的数据集则失败。
我想知道是否有办法优化这个过程。
python - Pyspark:为什么 ST_intersects 函数返回重复的行?
我正在使用的ST_Intersects
功能geospark
使点和多边形之间的交集。
为什么每行返回一个重复项?
apache-spark - 我正在使用IDEA开发Spark Demo,本地模式下如何设置spark内存大小的参数?
我在本地模式下运行 geoSpark Demo,而不是独立模式。数据大小约为 5GB。我收到 OOM 错误。我想在本地模式下更改 spark 内存,怎么做?
python - ClassNotFoundException geosparksql.UDT.GeometryUDT
我一直在尝试将 GeoPandas 数据框转换为 PySpark 数据框,但没有成功。目前,我已经扩展了 DataFrame 类以将 GPD DF 转换为 Spark DF,如下所示:
前面的代码编译没有错误,但是当尝试从 DataFrame 中“获取”一个项目时,我收到以下错误:
问题在于 GDP DF 的“几何”列,因为没有它它可以完美运行。'geometry' 列具有 Shapely Polygon 对象,这些对象应被 GeoSpark 的 GeometryType 类识别。
有没有办法安装 org.apache.spark.sql.geosparksql.UDT.GeometryUDT?我正在使用谷歌 Colab。
java - 使用 Spark Java 的 GeoSpark 库
我有以下数据框 o spark :
我想从 GeoSpark 应用 ST_Geomfromtext ,但我不知道该怎么做
我尝试了以下代码,但 id 对我不起作用
我需要你的帮助 。
谢谢
java - 使用 Spark/java 的 SQL 查询和数据帧
我是 spark 的初学者,我陷入了如何使用数据框发出 sql 请求。
我有以下两个数据框。
我想执行以下请求。
我真的卡住了,我应该加入两个数据框还是什么?我尝试像这样使用 id 和 idZone 加入两个数据框:
但在我看来,加入并不是正确的选择。
我需要你帮忙 。
谢谢