问题标签 [azure-databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 如何导出完整结果 Databricks Azure
我正在使用命令“display”示例通过完整下载结果选项从数据块中手动导出数据
但它只返回 1,000,000,我还有更多记录。关于导出完整结果,DataBricks 是否有任何限制?
如何下载所有结果?
azure - spark.conf.set 与 SparkR
SparkR
我有一个在 Azure 上运行的 Databricks 集群,并希望使用/从 Azure Data Lake Storage 读取/写入数据sparklyr
。因此我配置了这两个资源。
现在,我必须为 Spark 环境提供必要的配置以针对 Data Lake Storage 进行身份验证。
PySpark API
使用作品设置配置:
最后SparkR
/sparklyr
应该使用。在这里我无法弄清楚在哪里设置spark.conf.set
. 我会猜到类似的东西:
SparkR
如果其中一位使用API 的专家可以在这里帮助我,那就太棒了。谢谢!
编辑:user10791349 的答案是正确的并且有效。另一种解决方案是安装外部数据源,这是最佳实践。这目前只能使用 Scala 或 Python 实现,但之后可以使用 SparkR API 使用挂载的数据源。
python - 有什么方法可以优化使用 pandas 读取 TSV 文件、进行转换并使用 spark 写入表的代码?
我正在使用上面的代码读取 TSV 文件,使用 Databricks 中的数据创建一个永久表。这就是为什么需要转换为 spark 数据帧的原因。我还必须将创建的时间戳添加到表中并指定 Timestamp 数据类型。我不希望它被当作字符串。
然后我需要从表中创建一个 pandas 数据框,这样我就可以对数据进行一些简单的转换。pandas 数据框应由现有表制成。
现在,这段代码在数据块中运行需要 2.48 分钟。当我不使用代码创建新的时间戳列并指定其数据类型时,它过去在 6 秒内完成,这太过分了。
有没有办法优化这段代码?我不知道是否有任何方法可以将 pandas 数据框直接保存为表格。因此转换为火花数据帧。我需要在 Pandas 数据框本身中进行转换。而且我不知道有任何方法可以直接从表中创建熊猫数据框。因此首先要激发,然后是熊猫。
有没有办法优化这段代码?
apache-spark - 无法使用 pySpark 从 Databricks 在 Cosmos DB/documentDB 中写入数据帧
尝试将我一直在处理的数据框保存到 documentDB 集合时出现我不明白的错误。
堆栈上的其他类似问题指出为数据库或集合提供的名称不正确或区分大小写,但我检查了这些......还有什么其他解释?分区键?地区 ?...
另一方面,我无法找到一个完整的文档,关于哪些选项最终将提供给生产线df.write.format("com.microsoft.azure.cosmosdb.spark").mode('overwrite').options(**ddbconfig).save()
Spark 在 Databricks 上给出的错误是:
StackTrace 给了那些
响应在 storereadresult 中给出
编辑:与类似链接帖子不同的情况。尝试在新的空集合中写入数据时发生此错误。不读取现有数据。而且我已经在我的问题中澄清说,我已经探索了在这些类似帖子中发现的每条路径(主要是集合/数据库名称不匹配)。
machine-learning - 如何在 azure databricks 中导出我的预测(数组)?
我无法将我的数据框导出到 csv。消息“CSV 数据源不支持数组”
predictions.write.option("delimiter", "\t").csv("/mnt/classification2018/testpredic2")
我尝试了这个命令但连接了,但没有成功
日志错误
azure-databricks - 数据资源管理器:ImportError No module named Kqlmagic
我正在关注本教程: https ://docs.microsoft.com/en-us/azure/data-explorer/kqlmagic
我有一个 Databricks 集群,所以我决定使用那里可用的笔记本。
当我进入第 2 步并运行时:
我收到错误消息:
python - 如何在databricks(scala,python等)中创建.tsv文件
请让我知道如何在 databricks 代码(scala,python)中创建 .tsv 文件。
例如:.csv 文件创建示例。
%斯卡拉
val df = spark.sql("SELECT * FROM Employee")
df.write.format("csv").option("header",true).option("inferSchema",true).option("delimiter","\t").mode(SaveMode.Overwrite).save(目标文件路径)
scala - Azure Databricks Notebook 在包中时无法找到“dbutils”
我正在创建一个用于与 azure 存储 blob 通信的类,它工作正常,但是如果我尝试将这个类放入包中,它会给我一个错误"error: not found: value dbutils"。如果我删除班级上方的“package Libraries.Custom” ,它工作正常。
我正在使用 Scala 在 azure databricks notebook 中创建一个类。谁能帮帮我。代码如下:
班级代码
错误
azure-databricks - 将库附加到 Azure Databricks 群集
我想在 Azure Datatbricks 上使用 ts-flint。我相信这个过程记录在这里:https ://docs.azuredatabricks.net/user-guide/libraries.html
我尝试从 Azure 门户创建一个库并将其附加到我的 testCluster,但使用提供的说明但我似乎看不到它(在 Notbook 中调用 ts-flint 告诉我它未找到)。
难道我做错了什么?
这也是我试图加载到库中的 Python 文件:https ://pypi.org/project/ts-flint/#files
这个 .gz 文件不是有效的 PyPy 文件吗?
databricks - 仅当文件不存在时才使用 dbtuils 复制 Databricks 文件
我正在使用以下 databricks utilites ( dbutils
) 命令将文件从一个位置复制到另一个位置,如下所示:
但是,我希望仅在不存在具有相同名称“ ”的此类文件时才复制该文件thisfile.csv
。
有人可以让我知道这是否可能吗?
如果没有,还有其他解决方法吗?