问题标签 [databricks]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 问题

0 投票

1 回答

989 浏览

apache-spark - 我可以在 DataFrame.selectExpr 中使用 python 函数吗

我有一个DataFrame我正在执行selectExpr的

selectExpr("src.ID", "dst.ID", "SQRT(POW((src.X - dst.X),2) + POW((src.Y - dst.Y),2)) as dist") \

有什么办法可以dist在 Python 函数中的列上执行路径？

apache-spark pyspark databricks

2017-05-17T00:22:55.380

0 投票

2 回答

37522 浏览

apache-spark - 将常量值列添加到火花数据框

我在 Databricks 中使用 Spark 2.1 版。我有一个名为的数据框wamp，我想向其中添加一个名为的列，该列region应采用常量 value NE。NameError: name 'lit' is not defined但是，当我运行以下命令时，我收到一条错误消息：

我究竟做错了什么？

apache-spark pyspark databricks

2017-05-17T19:13:07.640

0 投票

3 回答

4197 浏览

apache-spark - 输出火花中的空文件

我正在写我的数据框，如下所示

但是，我收到了大约 200 个文件，其中大约 30-40 个文件是空的。我可以理解这可能是由于分区为空。然后我更新了我的代码

但我觉得它可能会影响性能。有没有其他更好的方法来限制输出文件的数量并删除空文件

apache-spark databricks

2017-05-18T04:00:11.520

0 投票

2 回答

6080 浏览

scala - 将 S3 挂载到数据块

我正在尝试了解如何mount工作。我有一个名为的 S3 存储桶myB，其中有一个名为的文件夹test。我做了一个安装使用

我的问题是：它是否在 S3myB和 databricks 之间创建了链接，并且 databricks 会访问所有文件，包括文件test夹下的文件吗？（或者，如果我使用 var 进行挂载AwsBucketName = "myB/test"，它是否仅将数据块链接到该文件夹test，而不是该文件夹之外的任何其他文件？）

如果是这样，我该如何说文件test夹中的列表文件，读取该文件或计数（）scala中的csv文件？我做了一个display(dbutils.fs.ls("/mnt/myB"))，它只显示测试文件夹，但不显示其中的文件。这里很新。非常感谢您的帮助！

scala amazon-web-services amazon-s3 databricks

2017-05-18T05:29:16.773

0 投票

0 回答

239 浏览

hadoop - Hivecontext 和 hive 结果对于十进制值 spark 不一致

我有一个配置单元表，其中十进制值保存为字节。当我从配置单元查询表时，值被正确提取。但是，当我使用配置单元上下文检索值时，这些值不正确。我有以下观察，

1) 当从 hive 上下文中获取十进制值时，显示为 value * 10 power 18

2) 一些值显示为空。但是，在 hive 中查询时，这些值是正确的。

只有在 hive 中保存为字节的小数才会出现此问题。

值 > 100 时会出现此问题。对于 < 100 的值，值会正确显示

hadoop apache-spark databricks

2017-05-21T11:51:33.447

0 投票

1 回答

261 浏览

scala - Databricks Spark-Redshift：排序键不起作用

我正在尝试按照此处的说明从 scala 代码中添加排序键：https ://github.com/databricks/spark-redshift

排序键的实现是错误的，因为当我检查表信息时：

排序键 = INTERLEAVEDˇ

我需要正确的方法来添加排序键。

scala apache-spark amazon-redshift databricks

2017-05-26T13:38:18.917

0 投票

2 回答

2562 浏览

apache-spark - 如何知道 Databricks 支持的文件格式？

我需要将各种文件（不同类型）加载到 spark 数据框中。Databricks 是否支持所有这些文件格式？如果是，我在哪里可以获得每种文件格式支持的选项列表？

谢谢

apache-spark apache-spark-sql databricks

2017-06-01T06:54:23.950

0 投票

2 回答

2867 浏览

apache-spark - 如何查看 parquet 元数据中的最小/最大索引？

我正在尝试利用镶木地板的最小/最大索引。我在这里关注问题/答案：Spark Parquet Statistics(min/max) integration

当我查看单个镶木地板文件时，我看不到任何最小值/最大值

我试过 .sortWithinPartitions("id") 得到相同的结果。

apache-spark parquet databricks

2017-06-02T18:02:02.170

0 投票

1 回答

3020 浏览

apache-spark - Spark dataframe databricks csv 附加额外的双引号

似乎当我应用in并将其作为 csv 文件存储在某个CONCAT位置时，在输出文件中单独向该列添加了额外的双引号。dataframespark sqldataframeHDFSconcat

当我应用显示时不添加此双引号。仅当我将其存储dataframe为 csv 文件时才添加此双引号

似乎我需要删除在保存dataframe为 csv 文件时添加的额外双引号。

我正在使用com.databricks:spark-csv_2.10:1.1.0罐子

Spark 版本为 1.5.0-cdh5.5.1

输入：

预期输出：

火花代码：

结果campaignMergedDF.show(20)是正确的并且工作正常。

结果saveAsCSVFiles：这是不正确的。

有人可以在这个问题上帮助我吗？

apache-spark apache-spark-sql databricks

2017-06-07T13:51:45.960

0 投票

1 回答

59 浏览

python - 使用数据块更改数据帧中 JSON 文件的最终结构？

我在 python 中使用 Databricks 将 JSON 文件的最终结构更改为数据帧。要在 Databricks 中阅读它，可以使用：

在使用 Jupyter notebook 时，您可以通过以下方式轻松完成：

但它如何在数据块中工作？

python json databricks

2017-06-08T15:25:00.673

1 2 3 4 5 6 7 8 9 10