问题标签 [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
316 浏览

python - 在不缓存代码的情况下使用 pyspark 缓存简单 RDD 时出错(如何在笔记本中制作可挑选的类)

我有以下简单代码导致有关缓存的错误:

该函数parseTrip()获取字符串列表并创建并返回一个类 Trip:

我在操作后立即收到错误消息count()。但是,如果我删除cache()第二行末尾的 一切正常。根据错误,问题是无法腌制类 Trip:

那么我怎样才能让它变得可腌制(如果它是一个实际的词)?请注意,我使用的是 Databricks 笔记本,因此我无法为类定义制作单独的 .py 以使其可腌制。

0 投票
1 回答
1269 浏览

apache-spark - Windows (Spyder):如何使用 pyspark 读取 csv 文件

我正在使用以下代码使用 pyspark 读取 csv 文件

错误抛出如下: -

文件“”,第 1 行,在 df = sqlContext.read.format("com.databricks.spark.csv").schema(customSchema).option("header", "true").option("mode", " DROPMALFORMED").load("iris.csv")

文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\context.py”,第 464 行,读取返回 DataFrameReader(self)

文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\readwriter.py”,第 70 行,在init self._jreader = spark._ssql_ctx.read ()

呼叫应答中的文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip\py4j\java_gateway.py”,第 1133 行 ,self.gateway_client , self.target_id, self.name)

文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\utils.py”,第 79 行,deco raise IllegalArgumentException(s.split(': ', 1)[1], 堆栈跟踪)

IllegalArgumentException:“实例化 'org.apache.spark.sql.internal.SessionState' 时出错:”

0 投票
1 回答
130 浏览

scala - com.databricks.spark.csv 版本要求

哪个版本与com.databricks.spark.csvSpark 1.6.1 和 scala 2.10.5 兼容?我可以看到

已经在我的机器上可用,根据我的理解,如果我有scala version 2.10,那么第一个选项就是我必须使用的选项。只是想再次确认。

0 投票
1 回答
3116 浏览

scala - 44: error: value read is not a member of object org.apache.spark.sql.SQLContext

I am using Spark 1.6.1, and Scala 2.10.5. I am trying to read the csv file through com.databricks. While launching the spark-shell, I use below lines as well

spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 --driver-class-path path to/sqljdbc4.jar, and below is the whole code

I am getting below error:-

error: value read is not a member of object org.apache.spark.sql.SQLContext, and the "^" is pointing toward "SQLContext.read().format" in the error message.

I did try the suggestions available in stackoverflow, as well as other sites as well. but nothing seems to be working.

0 投票
0 回答
669 浏览

scala - Error::java.lang.RuntimeException: 配置对象时出错

我得到以下错误

Error::java.lang.RuntimeException: 配置对象时出错。Spark 1.6.1 和 scala 2.10.5

使用 spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 --driver-class-path /usr/iop/4.2.0.0/spark/lib/sqljdbc4.jar 启动 spark-shell

下面是完整的跟踪

./test.sh

0 投票
0 回答
65 浏览

scala - 查找和输入空值:Spark + Scala 中的任何数据预处理包?

我对 Spark 和 Scala 完全陌生,正在尝试使用 Databricks 中的数据集。

我加载了一个 csv 文件作为数据框。现在,我想查看每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。

我认为 R 有一些能够分析空值的包(例如 MICE 包),但在 Spark 和 Scala 中我找不到类似的东西。

我一直在尝试通过“null”值过滤数据框,但这似乎不起作用。下面的代码只返回不为空的小屋。用 != 交换 == 没有帮助。

有谁知道可以帮助或知道如何解决我上述问题的软件包,以便我可以手动过滤?

此图显示了过滤前的数据集

此图像显示过滤不起作用

0 投票
1 回答
2658 浏览

scala - EMR 上的 pyspark 连接到 redshift 数据源

我一直在尝试将 pyspark 连接到 EMR 上的 redshift 数据源,但无法正常工作。这是我尝试过的:

因为 spark 位于 EMR 上的 /usr/lib/spark 并且 jar 文件位于 /usr/lib/spark/jars

1.我尝试的第一种方法我下载了依赖项并将其放入 /usr/lib/spark/jars

开始 pyspark 捐赠

使用 jar 文件启动 pyspark 后

错误消息如下所示:

  1. 另一种方法是使用包名启动 pyspark

    导出 SPARK_HOME='/usr/lib/spark'

    $SPARK_HOME/bin/pyspark --packages databricks:spark-redshift:0.4.0-hadoop2,com.databricks:spark-avro_2.11:3.2.0

这给了我与上面相同的错误。有没有人遇到过同样的问题并知道如何解决?

先感谢您。

0 投票
0 回答
25 浏览

csv - 如果数据中有尾随空格,则数据将被包含在 Hive 的 CHAR 数据类型的双引号中

我正在 HDFS 的 csv 文件中写入配置单元表的数据。

我的蜂巢表有一CHAR(5)列。

CHAR 数据类型中的示例数据:

火花作业后 HDFS 中 CSV 文件中的数据:

如果 CHAR 数据类型中有空格字符,它会被双引号括起来。如果没有前导/尾随空格,它工作正常(没有双引号)。

有用的代码:

我不确定这是功能还是错误。但是我可以禁用它吗?

0 投票
2 回答
718 浏览

csv - Hive 的日期和时间戳数据类型的 Spark csv 数据验证失败

Hive 表架构:

这是文本表

蜂巢表数据:

火花作业后获得的csv:

问题:

  • 00:00:00.0在日期类型中添加
  • 时间戳被截断到毫秒精度

有用的代码:


我知道dateFormat选项。但是datetimestampcolumn 在 Hive 中可以有不同的格式。

我可以简单地将所有列转换为字符串吗?

0 投票
1 回答
379 浏览

xml - 如何加载带有重复标签和属性的 Spark 2.1 XML 文件?

我有这样结构的xml文件:

我怎样才能将它加载到数据集中?我尝试按照Databricks 中的示例进行操作,但收到错误消息:AnalysysException: Reference '_id' is ambiguous, could be: _id#1, _id#3

我已将 StructType 架构中的 StructField '_id' 替换为 '_id#1'、'_id#2' 等等,

但我收到另一个错误: