问题标签 [databricks]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 问题

0 投票

2 回答

2094 浏览

apache-spark - spark: dataframe.count 产生的行数比逐行打印或 show() 多

Spark 新手；使用 Databricks。真的很纳闷。

我有这个数据框：df。

df.count()产生多头 = 5460

但如果我逐行打印： df.collect.foreach(println)我只打印出 541 行。同样，df.show(5460)仅显示 1017 行。可能是什么原因？

一个相关问题：如何使用 Databricks 保存“df”？它保存在哪里？-- 我之前尝试保存，但之后找不到文件。如果相关，我通过安装 S3 存储桶来加载数据。

2016-08-01T19:59:37.977

0 投票

1 回答

620 浏览

apache-spark - 火花：行到元素

Spark 新手。

我想对类型为 df 的 spark DataFrame 的“wordList”列进行一些转换org.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]。

我使用数据砖。df 看起来像：

更具体地说，我定义了一个函数 shrinkList(ol: List[String]): List[String]，它接受一个列表并返回一个较短的列表，并希望将其应用于 wordList 列。问题是，如何将行转换为列表？

df.select("wordList").map(t => shrinkList(t(1)))给出错误：type mismatch; found : Any required: List[String]

另外，我不确定这里的“t(1)”。我宁愿使用列名而不是索引，以防将来列的顺序发生变化。但我似乎无法让 t$"wordList" 或 t.wordList 或 t("wordList") 工作。因此，我可以使用什么选择器来选择“wordList”列，而不是使用 t(1)？

apache-spark apache-spark-sql spark-dataframe databricks

2016-08-02T21:22:43.343

0 投票

1 回答

89 浏览

apache-spark - Spark 和 groupby 操作的 XML 源

我正在使用XML来自databricks. 这是我的XML示例数据。

我想将所有node.val（按它们在XML文件中出现的顺序）组合在一起hs id。

例如，上述数据的 o/p 应为：

名称 hs id Val

abc 0 有机谷物

abc 1 哈利波特

这是我从 databricks 加载 XML 源的地方：

我不确定如何按对数据集进行分组hs id，并确保保留顺序。

apache-spark apache-spark-sql spark-dataframe databricks

2016-08-04T23:18:23.703

0 投票

1 回答

925 浏览

java - Databricks spark-csv 检查空文件

我正在尝试使用以下代码将 TSV 文件读入 DataFrame 对象：

现在，如果代码遇到空文件，则会引发 UnsupportedOperationException。我想处理空文件，但我不想假设这个异常总是意味着一个空文件。检查给定文件是否为空的最佳做法是什么？

java csv apache-spark databricks

2016-08-08T21:59:42.543

0 投票

1 回答

865 浏览

apache-spark - Spark 执行器 GC 耗时较长

我在一个独立的集群上运行 Spark 作业，我注意到一段时间后 GC 开始花费很长时间，并且开始显示红色可怕的颜色。

以下是可用资源：

职位详情：

如何修复 GC 时间太长？

apache-spark apache-spark-sql databricks

2016-08-16T02:32:13.893

0 投票

1 回答

3466 浏览

apache-spark - 自动化 zeppelin 笔记本

嗨，我刚刚观看了一个 databricks 网络研讨会，他们正在自动化一个 databricks 笔记本，并且他们有一个笔记本也依赖的依赖 jar。你能做到这齐柏林飞艇吗？就像从 bash 脚本调用笔记本中的脚本一样。像脚本一样执行笔记本。我想以这种方式在生产环境中使用我的笔记本。

apache-spark apache-zeppelin spark-notebook databricks

2016-08-18T14:24:16.170

0 投票

2 回答

506 浏览

sql - 当str的格式为dd/mm/yyyy时，如何将列类型从str转换为日期？

我从一个大的 csv 文件导入的 sql 中有一个大表。

当一列包含格式为 dd/mm/yyyy 的日期信息时，该列被识别为 str。

我试过select TO_DATE('12/31/2015') as date了，但这不起作用，因为 TO_DATE 函数需要 yyyy-mm-dd 格式。

如何在 sql 中将 '12/31/2015' 字符串重新排列为 '2015-12-31' 格式，以便将列类型转换为日期？

我在 sparkSQL（在 databricks 环境中）上执行此操作，因为数据量非常大，update似乎不支持 sql 的关键字。

sql date apache-spark-sql spark-csv databricks

2016-08-19T05:04:38.607

0 投票

1 回答

1394 浏览

scala - 如何从使用 databricks 编写的 AVRO 文件创建 Hive 外部表？

下面的代码是如何使用 scala 将其写入 HDFS。创建 Hive 表来查询此数据的 HQL 语法是什么？

我发现的示例需要提供一个avro.schema.literal来描述架构或提供一个avro.schema.url到实际的 avro 架构。

在 spark-shell 中，我需要做的就是阅读这个：

scala apache-spark hive avro databricks

2016-08-19T17:29:33.953

0 投票

2 回答

3530 浏览

python - 如何将 sql 表转换为 pyspark/python 数据结构并返回到 databricks 笔记本中的 sql

我在数据块上运行一个 sql 笔记本。我想分析一个包含十亿条记录的表。我可以对数据运行简单的 sql 查询。但是，我需要将日期列类型从 str 更改为 date。

不幸的是，sparkSQL 似乎不支持更新/更改语句，所以我似乎无法修改表中的数据。

允许我在下一个单元格中将 SQL 表转换为 python 数据结构（在 pyspark 中）的一行代码是什么？ 然后我可以修改文件并将其返回给 SQL。

python sql apache-spark databricks

2016-08-19T19:19:57.093

0 投票

1 回答

15337 浏览

python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks 笔记本中的 sql 表

pyspark.sql.dataframe.DataFrame我通过执行以下行创建了一个类型的数据框：dataframe = sqlContext.sql("select * from my_data_table")

如何将其转换回可以运行 sql 查询的 sparksql 表？

python sql apache-spark pyspark databricks

2016-08-19T23:03:53.410

1 2 3 4 5 6 7 8 9 10

问题标签 [databricks]

Reference