问题标签 [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
989 浏览

apache-spark - 我可以在 DataFrame.selectExpr 中使用 python 函数吗

我有一个DataFrame我正在执行selectExpr

selectExpr("src.ID", "dst.ID", "SQRT(POW((src.X - dst.X),2) + POW((src.Y - dst.Y),2)) as dist") \

有什么办法可以dist在 Python 函数中的列上执行路径?

0 投票
2 回答
37522 浏览

apache-spark - 将常量值列添加到火花数据框

我在 Databricks 中使用 Spark 2.1 版。我有一个名为的数据框wamp,我想向其中添加一个名为的列,该列region应采用常量 value NENameError: name 'lit' is not defined但是,当我运行以下命令时,我收到一条错误消息:

我究竟做错了什么?

0 投票
3 回答
4197 浏览

apache-spark - 输出火花中的空文件

我正在写我的数据框,如下所示

但是,我收到了大约 200 个文件,其中大约 30-40 个文件是空的。我可以理解这可能是由于分区为空。然后我更新了我的代码

但我觉得它可能会影响性能。有没有其他更好的方法来限制输出文件的数量并删除空文件

0 投票
2 回答
6080 浏览

scala - 将 S3 挂载到数据块

我正在尝试了解如何mount工作。我有一个名为 的 S3 存储桶myB,其中有一个名为 的文件夹test。我做了一个安装使用

我的问题是:它是否在 S3myB和 databricks 之间创建了链接,并且 databricks 会访问所有文件,包括文件test夹下的文件吗?(或者,如果我使用 var 进行挂载AwsBucketName = "myB/test",它是否仅将数据块链接到该文件夹test​​,而不是该文件夹之外的任何其他文件?)

如果是这样,我该如何说文件test夹中的列表文件,读取该文件或计数()scala中的csv文件?我做了一个display(dbutils.fs.ls("/mnt/myB")),它只显示测试文件夹,但不显示其中的文件。这里很新。非常感谢您的帮助!

0 投票
0 回答
239 浏览

hadoop - Hivecontext 和 hive 结果对于十进制值 spark 不一致

我有一个配置单元表,其中十进制值保存为字节。当我从配置单元查询表时,值被正确提取。但是,当我使用配置单元上下文检索值时,这些值不正确。我有以下观察,

1) 当从 hive 上下文中获取十进制值时,显示为 value * 10 power 18

2) 一些值显示为空。但是,在 hive 中查询时,这些值是正确的。

只有在 hive 中保存为字节的小数才会出现此问题。

值 > 100 时会出现此问题。对于 < 100 的值,值会正确显示

0 投票
1 回答
261 浏览

scala - Databricks Spark-Redshift:排序键不起作用

我正在尝试按照此处的说明从 scala 代码中添加排序键:https ://github.com/databricks/spark-redshift

排序键的实现是错误的,因为当我检查表信息时:

排序键 = INTERLEAVEDˇ

我需要正确的方法来添加排序键。

0 投票
2 回答
2562 浏览

apache-spark - 如何知道 Databricks 支持的文件格式?

我需要将各种文件(不同类型)加载到 spark 数据框中。Databricks 是否支持所有这些文件格式?如果是,我在哪里可以获得每种文件格式支持的选项列表?

谢谢

0 投票
2 回答
2867 浏览

apache-spark - 如何查看 parquet 元数据中的最小/最大索引?

我正在尝试利用镶木地板的最小/最大索引。我在这里关注问题/答案:Spark Parquet Statistics(min/max) integration

当我查看单个镶木地板文件时,我看不到任何最小值/最大值

我试过 .sortWithinPartitions("id") 得到相同的结果。

0 投票
1 回答
3020 浏览

apache-spark - Spark dataframe databricks csv 附加额外的双引号

似乎当我应用in并将其作为 csv 文件存储在某个CONCAT位置时,在输出文件中单独向该列添加了额外的双引号。dataframespark sqldataframeHDFSconcat

当我应用显示时不添加此双引号。仅当我将其存储dataframe为 csv 文件时才添加此双引号

似乎我需要删除在保存dataframe为 csv 文件时添加的额外双引号。

我正在使用com.databricks:spark-csv_2.10:1.1.0罐子

Spark 版本为 1.5.0-cdh5.5.1

输入 :

预期输出:

火花代码:

结果campaignMergedDF.show(20)是正确的并且工作正常。

结果saveAsCSVFiles: 这是不正确的。

有人可以在这个问题上帮助我吗?

0 投票
1 回答
59 浏览

python - 使用数据块更改数据帧中 JSON 文件的最终结构?

我在 python 中使用 Databricks 将 JSON 文件的最终结构更改为数据帧。要在 Databricks 中阅读它,可以使用:

在使用 Jupyter notebook 时,您可以通过以下方式轻松完成:

但它如何在数据块中工作?