问题标签 [azure-databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
20 浏览

databricks - Spark Streaming Notebook x 小时

我在 Databricks (Azure) 中创建了一个笔记本,将数据直接流式传输到我们的数据仓库。我想安排这个 ro 每天从(考试)凌晨 2 点到晚上 10 点运行,在关闭期间会运行一些维护。我可以把它安排在每天凌晨 2 点开始,但我怎样才能让它在每天晚上 10 点左右很好地停止呢?

0 投票
0 回答
707 浏览

azure - 天蓝色数据块中的 Sql 查询速度较慢

我正在使用 SQL 笔记本在 Azure Data Bricks 中运行以下 SQL 查询,它运行 40 秒,而相同的查询在 Azure DB 中运行 4 秒。如何使查询在 Azure Data Bricks 中运行得更快。我使用了以下方法连接 Azure DB 和 Data Bricks 之间的表

sql查询

我们是否可以在 Azure Data Bricks 中创建索引,因为在 azure db 中运行的查询正在使用该索引查询速度更快是否有任何替代方法可以在 azure databricks 中建立索引,或者是否有任何其他原因导致数据块中的性能缓慢

0 投票
2 回答
901 浏览

python - Python Egg 库文件引用同一包中的其他文件

我创建了一个 python egg 文件来将我的一些 python 模块导入到 Azure databricks 集群中。

包内的某些文件引用同一包内的其他文件。本地安装,一切正常。当我将包加载到 Azure databricks 并尝试使用我导入的库时,我收到模块导入错误。

例如:module1 看起来像这样

模块 2 看起来像这样

注意,module1 导入了 module2。Module2 什么都不导入。

我尝试在工作区 py 文件中导入 module1,当我运行该单元格时,出现错误“ImportError: No module named 'module2'”

从我在数据块中的笔记本中,当我运行此代码时:from myLibrary import module1

我收到一个错误:ImportError: No module named 'module2'

如果我运行这个:from myLibrary import module2

它运行良好

我验证了 module2 包含在 egg 包中。我上传了一个除 Azure 数据块之外的所有内容的示例,当然,是到 github GitHub 示例, 这是使用 python3 运行时运行的。

如果需要更多信息来理解问题,请告诉我,我很乐意编辑问题并提供。

0 投票
1 回答
2925 浏览

azure-blob-storage - Databricks read Azure blob last modified date

I have an Azure blob storage mounted to my Databricks hdfs. Is there a way to get the last modified date of the blob in databricks?

This is how i'm reading the blob content:

0 投票
1 回答
5361 浏览

apache-spark - 如何使用 Spark 修复 parquet 文件分区中的不一致模式

我是 spark 新手,在将新数据附加到分区时遇到了问题。我的管道使用 Databricks 将每日 CSV 导入 Azure Datalake(基本上是 HDFS)。我还对数据进行了一些简单的转换并删除了重复项等。但是,我注意到有时该inferSchema=True选项并不总是最好的,有时会在分区文件之间的模式中产生不一致。然后当我去阅读所有文件时:

我遇到了一个问题:

我有大量的分区文件,并且通过每个文件来查找架构是否相同,并且修复每个文件可能效率不高。有没有一种简单的方法来强制执行所有文件都将转换为的模式,或者您是否真的必须遍历每个镶木地板文件并更改模式?

使用火花 2.3.1

谢谢。

0 投票
1 回答
458 浏览

python - 我如何显示标签和预测 - PySpark

创建一个算法来对市场产品进行分类,所以我无法返回预测的标签,我尝试了几个命令,但它们都有一个错误(如下)。如何返回标签和百分比预测(我正在使用交叉验证)?

例子:

我想通知您产品“7 脉轮手链 7 脉轮手链,蓝色或黑色”,并且知道标签和准确性(此产品的标签返回“手链”)

训练数据

令牌、文本处理和矢量计数器

标签创建和数据集创建

到目前为止,我的数据集的结果是这样的

在此处输入图像描述

填充交叉算法

创建要分类的数据

我创建了一个新数据集,应该通过仅删除 labelIndex 列进行排序

在这里我用 datasetTest 计算新的预测

在此处输入图像描述

在这里一切顺利

现在问题来了,我无法从变量预测中看到任何信息

我尝试了下面的命令,但发生了所有错误

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
2 回答
296 浏览

scala - 从 DataBricks / Spark 中的 SELECT 语句调用时,Scala UDF 失败

我有以下 Scala 函数,已在 Azure DataBricks(Spark 2.3.1 和 Scala 2.11)中注册为 UDF:

如果直接调用该函数效果很好...

...或作为 SQL 中的 UDF:

在 SparkSql SQL 查询中使用 UDF 时……</p>

… 或者

它失败并显示以下错误消息。它提到了错误的日期格式,这让我感到困惑,因为该函数在我的表上的 SELECT 语句之外运行良好。

任何帮助集中我做错的事情将不胜感激!

非常感谢!

保罗

0 投票
2 回答
157 浏览

python - 在数据框中转换数据的问题

我在下面编写了函数(经过测试和工作):

从我在网上看到的情况来看,我应该能够以这种方式使用它:

但是,当我“显示”我的数据框时,该"CONFIRMEDDELIVERYDATE"列是原始日期时间字符串!没有给出错误。

我也试过这个:

ml_poLines['WeekId'] = (ConvertStrDateToWeekId(ml_poLines['CONFIRMEDDELIVERYDATE']))

并得到以下错误:

"ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions." which makes no sense to me.

我也试过这个没有成功。

以上产生以下错误:

我做错了什么?

0 投票
2 回答
3121 浏览

dataframe - 合并数据字符串和时间字符串

你会怎么做?Databricks 4.1、Spark 2.3

您将获得一个两列数据框:1) '<code>dt',字符串,如图所示。2) '<code>tm' 字符串,如图所示。我为这篇文章添加了第三列。

你的工作是创建第 3 列,“<code>dtm”、时间戳、格式、前导零、精度和时区不如正确组合“<code>dt”和“<code>tm”的 id 重要。

我在这篇文章中使用了 PySpark,但我并没有与之结婚。

我已经经历了几十个几十个例子和尝试,到目前为止我还没有找到最终可行的解决方案。

0 投票
3 回答
8499 浏览

azure - 在 Azure 中检查 Databricks 运行时的版本

是否可以在 Azure 中检查 Databricks Runtime 的版本?