问题标签 [azure-databricks]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2355 问题

0 投票

1 回答

5519 浏览

python - 如何使用参数创建数据块作业

我正在使用 databricks-cli 在 databricks 中创建一个新工作：

使用以下json：

我想添加可以通过以下方式在笔记本中访问的参数：

2018-07-11T09:00:25.530

0 投票

2 回答

1576 浏览

python - Databricks CLI 未在 Ubuntu 18.04 上安装

我已经在 Ubuntu 16.04 和 Mac 上成功安装了 databricks cli。当我尝试在 Ubuntu 18.04 (Azure VM) 上安装它时，它看起来运行良好，然后当我尝试调用 cli 工具时它没有安装。我让它在 Ubuntu 16.04 和 OSX 上运行良好。有什么想法让这个工作吗？输出复制如下

python ubuntu databricks azure-databricks databricks-cli

2018-08-24T21:34:43.183

0 投票

0 回答

105 浏览

scala - Spark 上的 XGBoost 因 SIGSEV 崩溃

我在 Azure Databricks 中使用 Scala，设置如下：

5x 工作节点 ( 28.0 GB Memory, 8 Cores, 1.5 DBU)
1 个驱动程序 ( 14.0 GB Memory, 4 Cores, 0.75 DBU)

我有一个包含 760k 行和两列的 Spark Dataframe：

标签 ( Double)
特征（每个SparseVector长度84224）

我想XGBoost在我的 Dataframe 上使用来训练回归模型：

启动后，我收到以下错误：

SIGSEGV (0xb) 在 pc=0x00007f62a9d33e0e，pid=3954，tid=0x00007f62c88db700

到目前为止我已经尝试过：

当我设置numWorkers为1时，训练开始，但显然运行得很慢，我认为这不是应该使用的方式。

此处的文档：https ://xgboost.readthedocs.io/en/latest/tutorials/external_memory.html和此处：https ://docs.databricks.com/spark/latest/mllib/third-party-libraries.html# xgboost对我的情况完全没有帮助。

我的问题是：

是否可以在大于每个工作人员内存的数据集上运行 XGBoost？（我认为这是肯定的，但如果我错了，请纠正我）
如何正确使用外部内存，以便当我使用更大的数据集时，XGBoost 将进行训练？
输入数据框的分区是否会以某种方式影响训练？

scala apache-spark xgboost databricks azure-databricks

2018-11-22T11:01:51.913

0 投票

1 回答

6135 浏览

databricks - 如何启用 Databricks Delta 功能

将我的 Azure Databricks 从标准升级到主要，尝试开始使用 Databricks Delta：

您的帐户中未启用 Databricks Delta。请联系您的客户经理讨论使用达美；

我是客户经理，但找不到此设置。它在哪里？

databricks azure-databricks delta-lake

2018-11-26T08:03:21.180

0 投票

0 回答

56 浏览

python - 将标头映射到 PySpark sql Dataframe

我正在研究 Azure Databricks，我的方案如下：

我正在读取（使用：spark.read.format("csv").options().load()）存储在 Blob 存储中的 CSV 文件。这样的文件包含 1000 列/变量（一千），但数据和标题是分开的（不同的文件）。我想将标头映射到 pyspark.sql.dataframe.DataFrame 但我的方法花了 1.18 小时。

这是我使用的方法。

我确信有更快的方法/更好的方法来完成这样的任务。

谢谢！

python pyspark azure-databricks

2018-11-26T23:50:56.320

0 投票

2 回答

101 浏览

sql - 连接一列中的值并创建另一列

我正在使用 Spark SQL，并在 Hive 表上执行一些 SQL 操作。我的桌子是这样的：```

```

我想从中创建另一个表，它将在这样的另一列中的链中包含总成本和前 5 个代码。

```

总成本很简单，但是，如何连接 CODE 列中的值并形成另一列。

我已经尝试过 collect_set 函数，但是值不能被限制并且也没有正确排序，可能是由于分布式处理。

任何 SQL 逻辑都是可能的？

编辑：

我需要对数据进行排序，所以我得到了前 5 个值。

sql apache-spark apache-spark-sql databricks azure-databricks

2018-11-27T14:13:00.267

0 投票

1 回答

533 浏览

pyspark - 纯 python 脚本（不是 pyspark）可以在 Azure Databricks 的群集中并行运行吗？

我想将我的 python 脚本从本地迁移到云上运行，特别是在Azure Databricks创建的集群上。

纯python脚本可以并行运行（同时使用集群中的多个节点）而不必转换成pyspark吗？
是否可以检查作业是否并行运行？

pyspark azure-databricks

2018-11-28T10:35:52.183

0 投票

1 回答

360 浏览

spark-structured-streaming - 如何在 Azure Databricks 中使用 EventHubsForeachWriter

我正在尝试使用 EventHubsForeachWriter，如下所示：

但我遇到了一个例外：

spark-structured-streaming azure-eventhub azure-databricks

2018-11-28T14:46:36.557

0 投票

5 回答

11389 浏览

path - Databricks：如何获取当前笔记本的路径？

Databricks 很聪明，但是您如何识别当前笔记本的路径？网站上的指南没有帮助。

它建议：

这并没有给我完整的路径，而是一些无法从笔记本访问的文件夹结构的路径。我需要路径，这样我就可以在与.ipynb文件相同的文件夹中进行系统调用。

有什么建议么？

path jupyter-notebook databricks azure-databricks

2018-11-28T16:03:28.713

0 投票

1 回答

2910 浏览

scala - Databricks Scala net.liftweb.json parse() 无法初始错误

我在网上找不到其他相关内容。我用两个版本的 lift 2.12 和 2.10 都试过了

我的集群/笔记本在 apache spark 2.3 和 scala 2.11 中

这段代码

这个错误

任何帮助表示赞赏。我找不到任何积极的方式来影响这一点。

scala lift databricks azure-databricks

2018-11-28T21:29:42.423

1 2 3 4 5 6 7 8 9 10

问题标签 [azure-databricks]

Reference