“aws-databricks”的相关标签问题

0 投票

2 回答

223 浏览

pyspark - from_json 在 Apache Spark 3.0 中返回 null

我有一个包含字典数组的字符串类型的 pyspark 列。

我想将字符串转换为结构数组，但是在这样做时，新列中的字段被填充为空。

Databricks 运行时 - 8.3（包括 Apache Spark 3.1.1、Scala 2.12）

我的数据框看起来像：

我正在使用 from_json 函数来实现相同的目的，但值被填充为 null

有人可以在这里帮助我吗

2021-08-31T04:53:11.170

0 投票

1 回答

283 浏览

databricks - 我们如何访问附加笔记本中的 databricks 作业参数？

在 Databrick 中，如果我有一份工作作业请求 json 为：

如何访问作业附加笔记本中的 notebook_params？

databricks aws-databricks databricks-cli dbutils

2021-09-01T06:50:47.907

0 投票

1 回答

94 浏览

databricks - Databricks 无服务器计算机 - 写回增量表

Databricks 无服务器计算 - 我知道这仍处于预览阶段，并且是应要求提供的，并且仅在 AWS 上可用。

这可以用于读写（更新） .delta 表[或者]它是只读的吗？

运行小型查询（本质上是事务性的）是否很好？[或者] 使用 Azure SQL 是否很好？

对于小型查询，Azure SQL ( az sql) 的性能似乎比 Databricks 更快。

由于 Dataricks 在从 .delta 表中查询时必须遍历 Hive Metastore - 这会影响性能吗？

databricks azure-databricks delta-lake aws-databricks

2021-09-05T23:20:17.840

0 投票

1 回答

234 浏览

apache-spark-sql - databricks spark SQL中date_format函数的预期输入日期模式是什么

我试图更好地理解date_formatSpark SQL 提供的函数。根据官方 databricks 文档（我正在使用 databricks），此函数需要任何日期/字符串采用有效的日期时间格式。以下是相同的链接。

我发现很难理解这里“有效”的确切定义是什么。我试图通过这里的两个示例来了解功能。输入 YYYY-MM-DD 格式（2021-07-09）的字符串，我得到了正确的预期结果：

以 DD-MM-YYYY 格式（20-07-2021）输入字符串，我得到空值：

为什么会这样？这个函数是如何理解我传递的参数确实是 YYYY-MM-DD 格式的？它也可能是 YYYY-DD-MM。

我的要求是我实现一个可以处理各种有效日期格式（MM-DD-YYYY、YYYY-MM-DD、DD-MM-YYYY）并相应地格式化日期的逻辑。

apache-spark-sql databricks azure-databricks aws-databricks

2021-09-14T19:21:03.417

0 投票

0 回答

66 浏览

java - 无法在 Databricks 上的 Apache Spark 中从 Jar 文件运行 UDF

我在 Databricks 上的 Spark 中运行我的 jar 文件中的函数时遇到问题。我正在尝试使用一个简单的测试函数来执行此操作，该函数接受一个整数并返回整数 + 5。但是，当我尝试注册测试函数时，出现以下错误：

java.lang.TypeNotPresentException：类型 UDF1 不存在

我正在运行的火花代码是：

我试图运行的java函数是这样的：

我怀疑这可能是版本错误，但我不确定要更改什么。我的 Databricks 运行时版本是：

8.3（包括 Apache Spark 3.1.1、Scala 2.12）

我相信我正在用 Java 1.8 编译和导出 Jar。如果有人知道我的集群和 Jar 之间是否存在兼容性错误，或者我注册的 UDF 错误，如果您能帮助我，我将不胜感激。

java apache-spark databricks aws-databricks

2021-09-29T16:54:42.757

0 投票

0 回答

31 浏览

python-3.x - xgb.train(): TypeError: float() argument must be a string or a number, not 'DMatrix'

当我查看文档时，参数应该是“DMatrix”（xgboost 版本 1.5.0）。

https://xgboost.readthedocs.io/en/latest/python/python_api.html#:~:text=Customized%20objective%20function.-,Learning%20API,num_boost_round%20(int)%20%E2%80% 93%20Number%20of%20boosting%20iterations,- .

表示我使用的版本几乎相同（在下面的文档链接中转到子标题“1.2.2 Python”）：

https://xgboost.readthedocs.io/_/downloads/en/release_1.3.0/pdf/

我不明白为什么它应该是一个 DMatrix 时要求一个浮点参数。

我查看了所有具有字符串'TypeError：float（）参数必须是字符串或数字，而不是......'的堆栈帖子，但它们都没有包含'DMatrix'，我无法找到我可以适应这个特定问题的解决方案。

以下是引发此错误的代码（转到'clf - xgb.train（...）'）：

错误信息：

我正在使用 Databricks、Python 3.8.8 和 xgboost 1.3.1。

我正在尝试改编以下教程中的代码：Effortless Hyperparameters Tuning with Apache Spark。

python-3.x xgboost aws-databricks

2021-09-30T12:12:01.547

0 投票

0 回答

27 浏览

databricks - Databricks 连接不能从 intellj 工作？

我正在尝试使用 databricks connect 从 intellj 在 databricks 集群上运行 spark 作业。我遵循以下链接文档。

https://docs.databricks.com/dev-tools/databricks-connect.html

但是我不能让它与 intellj 一起工作，它会抛出异常

我找不到解决方法，因为文档没有明确说明我从 intellj 交叉检查了它指向由 (databricks-connect get-jar-dir) 返回的正确 jar 目录。任何线索都会有帮助吗？

注意：databricks-connect 测试返回成功

databricks intellij-14 databricks-connect aws-databricks

2021-10-01T13:15:53.927

0 投票

0 回答

62 浏览

apache-spark - Databrick连接在Linux的VsCode中引发错误？

我正在尝试使用从 VS 代码连接的数据块。一切正常，它可以启动集群，但是在调用addjar如下所示的依赖项时，我看到了数据块的异常

例外

任何机构都遇到了类似的错误。我在网上看不到任何帮助。

apache-spark databricks aws-databricks

2021-10-07T04:59:41.737

0 投票

1 回答

27 浏览

pyspark - 自动建议停止在我的笔记本上工作

在集群之间切换（分离/附加）后，自动建议功能在我正在使用的当前笔记本上停止工作，并且当我在一段时间后键入 TAB 键时无法自动完成，我得到：'不建议'。

我试图删除 cookie，但没有帮助。

知道为什么以及如何解决它吗？

pyspark databricks aws-databricks

2021-10-07T06:45:07.017

0 投票

0 回答

160 浏览

azure - Databricks 流到批处理过程

我正在使用 Databricks，我正在享受Autoloader功能。基本上，它正在创建以微批处理方式使用数据的基础设施。它适用于初始原始表（或将其命名为青铜）。

当我有点迷失时，如何附加我的其他表格 - 分期（或将其命名为银色）。最复杂的部分是关于 staging (silver) 到 dw layer (gold) 的首要任务。使用 MERGE 命令是一种方式，但在规模上性能可能会下降。

我正在寻找为我的事实表提供流（微批处理）和批处理的最佳实践。

只是为了即我将添加我的云文件配置：

使用触发选项写入：（我想使用 ADF 安排作业）。

我正在寻找流到批处理的最佳实践。谢谢！

azure apache-spark databricks azure-databricks aws-databricks

2021-10-18T19:24:31.623

问题标签 [aws-databricks]

Reference