问题标签 [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2094 浏览

apache-spark - spark: dataframe.count 产生的行数比逐行打印或 show() 多

Spark 新手;使用 Databricks。真的很纳闷。

我有这个数据框:df。

df.count()产生多头 = 5460

但如果我逐行打印: df.collect.foreach(println)我只打印出 541 行。同样,df.show(5460)仅显示 1017 行。可能是什么原因?

一个相关问题:如何使用 Databricks 保存“df”?它保存在哪里?-- 我之前尝试保存,但之后找不到文件。如果相关,我通过安装 S3 存储桶来加载数据。

0 投票
1 回答
620 浏览

apache-spark - 火花:行到元素

Spark 新手。

我想对类型为 df 的 spark DataFrame 的“wordList”列进行一些转换org.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]

我使用数据砖。df 看起来像:

更具体地说,我定义了一个函数 shrinkList(ol: List[String]): List[String],它接受一个列表并返回一个较短的列表,并希望将其应用于 wordList 列。问题是,如何将行转换为列表?

df.select("wordList").map(t => shrinkList(t(1)))给出错误:type mismatch; found : Any required: List[String]

另外,我不确定这里的“t(1)”。我宁愿使用列名而不是索引,以防将来列的顺序发生变化。但我似乎无法让 t$"wordList" 或 t.wordList 或 t("wordList") 工作。因此,我可以使用什么选择器来选择“wordList”列,而不是使用 t(1)?

0 投票
1 回答
89 浏览

apache-spark - Spark 和 groupby 操作的 XML 源

我正在使用XML来自databricks. 这是我的XML示例数据。

我想将所有node.val按它们在XML文件中出现的顺序)组合在一起hs id

例如,上述数据的 o/p 应为:

名称 hs id Val

abc 0 有机谷物

abc 1 哈利波特

这是我从 databricks 加载 XML 源的地方:

我不确定如何按 对数据集进行分组hs id,并确保保留顺序。

0 投票
1 回答
925 浏览

java - Databricks spark-csv 检查空文件

我正在尝试使用以下代码将 TSV 文件读入 DataFrame 对象:

现在,如果代码遇到空文件,则会引发 UnsupportedOperationException。我想处理空文件,但我不想假设这个异常总是意味着一个空文件。检查给定文件是否为空的最佳做法是什么?

0 投票
1 回答
865 浏览

apache-spark - Spark 执行器 GC 耗时较长

我在一个独立的集群上运行 Spark 作业,我注意到一段时间后 GC 开始花费很长时间,并且开始显示红色可怕的颜色。

以下是可用资源:

职位详情:

在此处输入图像描述

如何修复 GC 时间太长?

0 投票
1 回答
3466 浏览

apache-spark - 自动化 zeppelin 笔记本

嗨,我刚刚观看了一个 databricks 网络研讨会,他们正在自动化一个 databricks 笔记本,并且他们有一个笔记本也依赖的依赖 jar。你能做到这齐柏林飞艇吗?就像从 bash 脚本调用笔记本中的脚本一样。像脚本一样执行笔记本。我想以这种方式在生产环境中使用我的笔记本。

0 投票
2 回答
506 浏览

sql - 当str的格式为dd/mm/yyyy时,如何将列类型从str转换为日期?

我从一个大的 csv 文件导入的 sql 中有一个大表。

当一列包含格式为 dd/mm/yyyy 的日期信息时,该列被识别为 str。

我试过select TO_DATE('12/31/2015') as date了,但这不起作用,因为 TO_DATE 函数需要 yyyy-mm-dd 格式。

如何在 sql 中将 '12/31/2015' 字符串重新排列为 '2015-12-31' 格式,以便将列类型转换为日期?

我在 sparkSQL(在 databricks 环境中)上执行此操作,因为数据量非常大,update似乎不支持 sql 的关键字。

0 投票
1 回答
1394 浏览

scala - 如何从使用 databricks 编写的 AVRO 文件创建 Hive 外部表?

下面的代码是如何使用 scala 将其写入 HDFS。创建 Hive 表来查询此数据的 HQL 语法是什么?

我发现的示例需要提供一个avro.schema.literal来描述架构或提供一个avro.schema.url到实际的 avro 架构。

在 spark-shell 中,我需要做的就是阅读这个:

0 投票
2 回答
3530 浏览

python - 如何将 sql 表转换为 pyspark/python 数据结构并返回到 databricks 笔记本中的 sql

我在数据块上运行一个 sql 笔记本。我想分析一个包含十亿条记录的表。我可以对数据运行简单的 sql 查询。但是,我需要将日期列类型从 str 更改为 date。

不幸的是,sparkSQL 似乎不支持更新/更改语句,所以我似乎无法修改表中的数据。

允许我在下一个单元格中将 SQL 表转换为 python 数据结构(在 pyspark 中)的一行代码是什么? 然后我可以修改文件并将其返回给 SQL。

0 投票
1 回答
15337 浏览

python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks 笔记本中的 sql 表

pyspark.sql.dataframe.DataFrame我通过执行以下行 创建了一个类型的数据框:dataframe = sqlContext.sql("select * from my_data_table")

如何将其转换回可以运行 sql 查询的 sparksql 表?