问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 我可以在 DataFrame.selectExpr 中使用 python 函数吗
我有一个DataFrame
我正在执行selectExpr
的
selectExpr("src.ID", "dst.ID", "SQRT(POW((src.X - dst.X),2) + POW((src.Y - dst.Y),2)) as dist") \
有什么办法可以dist
在 Python 函数中的列上执行路径?
apache-spark - 将常量值列添加到火花数据框
我在 Databricks 中使用 Spark 2.1 版。我有一个名为的数据框wamp
,我想向其中添加一个名为的列,该列region
应采用常量 value NE
。NameError: name 'lit' is not defined
但是,当我运行以下命令时,我收到一条错误消息:
我究竟做错了什么?
apache-spark - 输出火花中的空文件
我正在写我的数据框,如下所示
但是,我收到了大约 200 个文件,其中大约 30-40 个文件是空的。我可以理解这可能是由于分区为空。然后我更新了我的代码
但我觉得它可能会影响性能。有没有其他更好的方法来限制输出文件的数量并删除空文件
scala - 将 S3 挂载到数据块
我正在尝试了解如何mount
工作。我有一个名为 的 S3 存储桶myB
,其中有一个名为 的文件夹test
。我做了一个安装使用
我的问题是:它是否在 S3myB
和 databricks 之间创建了链接,并且 databricks 会访问所有文件,包括文件test
夹下的文件吗?(或者,如果我使用 var 进行挂载AwsBucketName = "myB/test"
,它是否仅将数据块链接到该文件夹test
,而不是该文件夹之外的任何其他文件?)
如果是这样,我该如何说文件test
夹中的列表文件,读取该文件或计数()scala中的csv文件?我做了一个display(dbutils.fs.ls("/mnt/myB"))
,它只显示测试文件夹,但不显示其中的文件。这里很新。非常感谢您的帮助!
hadoop - Hivecontext 和 hive 结果对于十进制值 spark 不一致
我有一个配置单元表,其中十进制值保存为字节。当我从配置单元查询表时,值被正确提取。但是,当我使用配置单元上下文检索值时,这些值不正确。我有以下观察,
1) 当从 hive 上下文中获取十进制值时,显示为 value * 10 power 18
2) 一些值显示为空。但是,在 hive 中查询时,这些值是正确的。
只有在 hive 中保存为字节的小数才会出现此问题。
值 > 100 时会出现此问题。对于 < 100 的值,值会正确显示
scala - Databricks Spark-Redshift:排序键不起作用
我正在尝试按照此处的说明从 scala 代码中添加排序键:https ://github.com/databricks/spark-redshift
排序键的实现是错误的,因为当我检查表信息时:
排序键 = INTERLEAVEDˇ
我需要正确的方法来添加排序键。
apache-spark - 如何知道 Databricks 支持的文件格式?
我需要将各种文件(不同类型)加载到 spark 数据框中。Databricks 是否支持所有这些文件格式?如果是,我在哪里可以获得每种文件格式支持的选项列表?
谢谢
apache-spark - 如何查看 parquet 元数据中的最小/最大索引?
我正在尝试利用镶木地板的最小/最大索引。我在这里关注问题/答案:Spark Parquet Statistics(min/max) integration
当我查看单个镶木地板文件时,我看不到任何最小值/最大值
我试过 .sortWithinPartitions("id") 得到相同的结果。
apache-spark - Spark dataframe databricks csv 附加额外的双引号
似乎当我应用in并将其作为 csv 文件存储在某个CONCAT
位置时,在输出文件中单独向该列添加了额外的双引号。dataframe
spark sql
dataframe
HDFS
concat
当我应用显示时不添加此双引号。仅当我将其存储dataframe
为 csv 文件时才添加此双引号
似乎我需要删除在保存dataframe
为 csv 文件时添加的额外双引号。
我正在使用com.databricks:spark-csv_2.10:1.1.0
罐子
Spark 版本为 1.5.0-cdh5.5.1
输入 :
预期输出:
火花代码:
结果campaignMergedDF.show(20)
是正确的并且工作正常。
结果saveAsCSVFiles
: 这是不正确的。
有人可以在这个问题上帮助我吗?
python - 使用数据块更改数据帧中 JSON 文件的最终结构?
我在 python 中使用 Databricks 将 JSON 文件的最终结构更改为数据帧。要在 Databricks 中阅读它,可以使用:
在使用 Jupyter notebook 时,您可以通过以下方式轻松完成:
但它如何在数据块中工作?