问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在不缓存代码的情况下使用 pyspark 缓存简单 RDD 时出错(如何在笔记本中制作可挑选的类)
我有以下简单代码导致有关缓存的错误:
该函数parseTrip()
获取字符串列表并创建并返回一个类 Trip:
我在操作后立即收到错误消息count()
。但是,如果我删除cache()
第二行末尾的 一切正常。根据错误,问题是无法腌制类 Trip:
那么我怎样才能让它变得可腌制(如果它是一个实际的词)?请注意,我使用的是 Databricks 笔记本,因此我无法为类定义制作单独的 .py 以使其可腌制。
apache-spark - Windows (Spyder):如何使用 pyspark 读取 csv 文件
我正在使用以下代码使用 pyspark 读取 csv 文件
错误抛出如下: -
文件“”,第 1 行,在 df = sqlContext.read.format("com.databricks.spark.csv").schema(customSchema).option("header", "true").option("mode", " DROPMALFORMED").load("iris.csv")
文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\context.py”,第 464 行,读取返回 DataFrameReader(self)
文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\readwriter.py”,第 70 行,在init self._jreader = spark._ssql_ctx.read ()
呼叫应答中的文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip\py4j\java_gateway.py”,第 1133 行 ,self.gateway_client , self.target_id, self.name)
文件“D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\sql\utils.py”,第 79 行,deco raise IllegalArgumentException(s.split(': ', 1)[1], 堆栈跟踪)
IllegalArgumentException:“实例化 'org.apache.spark.sql.internal.SessionState' 时出错:”
scala - com.databricks.spark.csv 版本要求
哪个版本与com.databricks.spark.csv
Spark 1.6.1 和 scala 2.10.5 兼容?我可以看到
已经在我的机器上可用,根据我的理解,如果我有scala version 2.10
,那么第一个选项就是我必须使用的选项。只是想再次确认。
scala - 44: error: value read is not a member of object org.apache.spark.sql.SQLContext
I am using Spark 1.6.1, and Scala 2.10.5. I am trying to read the csv file through com.databricks. While launching the spark-shell, I use below lines as well
spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 --driver-class-path path to/sqljdbc4.jar, and below is the whole code
I am getting below error:-
error: value read is not a member of object org.apache.spark.sql.SQLContext, and the "^" is pointing toward "SQLContext.read().format" in the error message.
I did try the suggestions available in stackoverflow, as well as other sites as well. but nothing seems to be working.
scala - Error::java.lang.RuntimeException: 配置对象时出错
我得到以下错误
Error::java.lang.RuntimeException: 配置对象时出错。Spark 1.6.1 和 scala 2.10.5
使用 spark-shell --packages com.databricks:spark-csv_2.10:1.5.0 --driver-class-path /usr/iop/4.2.0.0/spark/lib/sqljdbc4.jar 启动 spark-shell
下面是完整的跟踪
./test.sh
scala - 查找和输入空值:Spark + Scala 中的任何数据预处理包?
我对 Spark 和 Scala 完全陌生,正在尝试使用 Databricks 中的数据集。
我加载了一个 csv 文件作为数据框。现在,我想查看每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。
我认为 R 有一些能够分析空值的包(例如 MICE 包),但在 Spark 和 Scala 中我找不到类似的东西。
我一直在尝试通过“null”值过滤数据框,但这似乎不起作用。下面的代码只返回不为空的小屋。用 != 交换 == 没有帮助。
有谁知道可以帮助或知道如何解决我上述问题的软件包,以便我可以手动过滤?
scala - EMR 上的 pyspark 连接到 redshift 数据源
我一直在尝试将 pyspark 连接到 EMR 上的 redshift 数据源,但无法正常工作。这是我尝试过的:
因为 spark 位于 EMR 上的 /usr/lib/spark 并且 jar 文件位于 /usr/lib/spark/jars
1.我尝试的第一种方法我下载了依赖项并将其放入 /usr/lib/spark/jars
开始 pyspark 捐赠
使用 jar 文件启动 pyspark 后
错误消息如下所示:
另一种方法是使用包名启动 pyspark
导出 SPARK_HOME='/usr/lib/spark'
$SPARK_HOME/bin/pyspark --packages databricks:spark-redshift:0.4.0-hadoop2,com.databricks:spark-avro_2.11:3.2.0
这给了我与上面相同的错误。有没有人遇到过同样的问题并知道如何解决?
先感谢您。
csv - 如果数据中有尾随空格,则数据将被包含在 Hive 的 CHAR 数据类型的双引号中
我正在 HDFS 的 csv 文件中写入配置单元表的数据。
我的蜂巢表有一CHAR(5)
列。
CHAR 数据类型中的示例数据:
火花作业后 HDFS 中 CSV 文件中的数据:
如果 CHAR 数据类型中有空格字符,它会被双引号括起来。如果没有前导/尾随空格,它工作正常(没有双引号)。
有用的代码:
我不确定这是功能还是错误。但是我可以禁用它吗?
csv - Hive 的日期和时间戳数据类型的 Spark csv 数据验证失败
Hive 表架构:
这是文本表
蜂巢表数据:
火花作业后获得的csv:
问题:
00:00:00.0
在日期类型中添加- 时间戳被截断到毫秒精度
有用的代码:
我知道dateFormat
选项。但是date
和timestamp
column 在 Hive 中可以有不同的格式。
我可以简单地将所有列转换为字符串吗?
xml - 如何加载带有重复标签和属性的 Spark 2.1 XML 文件?
我有这样结构的xml文件:
我怎样才能将它加载到数据集中?我尝试按照Databricks 中的示例进行操作,但收到错误消息:AnalysysException: Reference '_id' is ambiguous, could be: _id#1, _id#3
我已将 StructType 架构中的 StructField '_id' 替换为 '_id#1'、'_id#2' 等等,
但我收到另一个错误: