问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - spark: dataframe.count 产生的行数比逐行打印或 show() 多
Spark 新手;使用 Databricks。真的很纳闷。
我有这个数据框:df。
df.count()
产生多头 = 5460
但如果我逐行打印:
df.collect.foreach(println)
我只打印出 541 行。同样,df.show(5460)
仅显示 1017 行。可能是什么原因?
一个相关问题:如何使用 Databricks 保存“df”?它保存在哪里?-- 我之前尝试保存,但之后找不到文件。如果相关,我通过安装 S3 存储桶来加载数据。
apache-spark - 火花:行到元素
Spark 新手。
我想对类型为 df 的 spark DataFrame 的“wordList”列进行一些转换org.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]
。
我使用数据砖。df 看起来像:
更具体地说,我定义了一个函数 shrinkList(ol: List[String]): List[String],它接受一个列表并返回一个较短的列表,并希望将其应用于 wordList 列。问题是,如何将行转换为列表?
df.select("wordList").map(t => shrinkList(t(1)))
给出错误:type mismatch;
found : Any
required: List[String]
另外,我不确定这里的“t(1)”。我宁愿使用列名而不是索引,以防将来列的顺序发生变化。但我似乎无法让 t$"wordList" 或 t.wordList 或 t("wordList") 工作。因此,我可以使用什么选择器来选择“wordList”列,而不是使用 t(1)?
apache-spark - Spark 和 groupby 操作的 XML 源
我正在使用XML
来自databricks
. 这是我的XML
示例数据。
我想将所有node.val
(按它们在XML
文件中出现的顺序)组合在一起hs id
。
例如,上述数据的 o/p 应为:
名称 hs id Val
abc 0 有机谷物
abc 1 哈利波特
这是我从 databricks 加载 XML 源的地方:
我不确定如何按 对数据集进行分组hs id
,并确保保留顺序。
java - Databricks spark-csv 检查空文件
我正在尝试使用以下代码将 TSV 文件读入 DataFrame 对象:
现在,如果代码遇到空文件,则会引发 UnsupportedOperationException。我想处理空文件,但我不想假设这个异常总是意味着一个空文件。检查给定文件是否为空的最佳做法是什么?
apache-spark - 自动化 zeppelin 笔记本
嗨,我刚刚观看了一个 databricks 网络研讨会,他们正在自动化一个 databricks 笔记本,并且他们有一个笔记本也依赖的依赖 jar。你能做到这齐柏林飞艇吗?就像从 bash 脚本调用笔记本中的脚本一样。像脚本一样执行笔记本。我想以这种方式在生产环境中使用我的笔记本。
sql - 当str的格式为dd/mm/yyyy时,如何将列类型从str转换为日期?
我从一个大的 csv 文件导入的 sql 中有一个大表。
当一列包含格式为 dd/mm/yyyy 的日期信息时,该列被识别为 str。
我试过select TO_DATE('12/31/2015') as date
了,但这不起作用,因为 TO_DATE 函数需要 yyyy-mm-dd 格式。
如何在 sql 中将 '12/31/2015' 字符串重新排列为 '2015-12-31' 格式,以便将列类型转换为日期?
我在 sparkSQL(在 databricks 环境中)上执行此操作,因为数据量非常大,update
似乎不支持 sql 的关键字。
scala - 如何从使用 databricks 编写的 AVRO 文件创建 Hive 外部表?
下面的代码是如何使用 scala 将其写入 HDFS。创建 Hive 表来查询此数据的 HQL 语法是什么?
我发现的示例需要提供一个avro.schema.literal来描述架构或提供一个avro.schema.url到实际的 avro 架构。
在 spark-shell 中,我需要做的就是阅读这个:
python - 如何将 sql 表转换为 pyspark/python 数据结构并返回到 databricks 笔记本中的 sql
我在数据块上运行一个 sql 笔记本。我想分析一个包含十亿条记录的表。我可以对数据运行简单的 sql 查询。但是,我需要将日期列类型从 str 更改为 date。
不幸的是,sparkSQL 似乎不支持更新/更改语句,所以我似乎无法修改表中的数据。
允许我在下一个单元格中将 SQL 表转换为 python 数据结构(在 pyspark 中)的一行代码是什么? 然后我可以修改文件并将其返回给 SQL。
python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks 笔记本中的 sql 表
pyspark.sql.dataframe.DataFrame
我通过执行以下行
创建了一个类型的数据框:dataframe = sqlContext.sql("select * from my_data_table")
如何将其转换回可以运行 sql 查询的 sparksql 表?