问题标签 [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1625 浏览

apache-spark - 在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize

我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时,我看到了这个错误:

看来我需要更新 spark 配置中的 maxResultsSize 。如何从 jupyter notebook 设置 spark maxResultsSize。

已经查看了这篇文章:Spark 1.4 increase maxResultSize memory

另外,在 emr notebook 中,已经给出了 spark 上下文,有没有办法编辑 spark 上下文并增加 maxResultsSize

任何线索都会非常有帮助。

谢谢

0 投票
2 回答
214 浏览

bash - 路径包含空名称

我正在运行以下任务以使用 Azure DevOps 发布管道将 Notebook 上传到 Databricks:

但收到错误:路径(//build/helloworld-04747aa082426141c5c286fbe5eab2d7d1bd5983.py)包含空名称

令人惊讶的是,相同的代码运行良好,对其他人来说没有任何错误。

谷歌搜索没有找到任何东西。任何想法/线索/建议?谢谢

0 投票
1 回答
317 浏览

pandas - 为什么火花中的一些音符工作得非常慢?为什么在同一情况下多次执行有不同的执行时间?

我的问题是关于 zeppelin 中 pyspark 代码的执行时间。

我有一些笔记,我在其中使用了一些 SQL。在我的一篇笔记中,我使用.topandas()函数将我的数据框转换为熊猫。我的数据大小约为 600 兆字节。

我的问题是它需要很长时间。

例如,如果我像这样使用采样:

它在可接受的时间内正常工作。

另一个奇怪的地方是当我多次运行这个笔记时,它有时运行得很快,有时运行得很慢。例如,对于重新启动 pyspark 解释器后的第一次运行,它运行得更快。

如何在稳定状态下使用 zeppelin?哪些参数可以有效地在可接受的时间内运行火花代码?

0 投票
0 回答
147 浏览

sql - SQL 语句中的错误:AnalysisException: cannot resolve '`T_B.N`' given input columns

我需要帮助。运行代码时出现错误“ SQL 语句中的错误:AnalysisException: cannot resolve ' T_B.N' given input columns: []; line 3 pos 10; ”。我该如何解决?有没有更好的方法来编写查询?

我和我的“同事”试图以我们知道的方式解决,但无论如何都没有完成。

感谢关注

0 投票
1 回答
299 浏览

scala - 如何在 PySpark 或 Scala databriks notebook 中调用远程 SQL 函数

我正在编写连接 SQL 服务器数据库的 databriks scala / python notebook。我想使用自定义参数从笔记本执行 sql server 函数。

这里的函数是 FN_cal_udf存储在 sql server 数据库 -'DBsample'

我收到错误:jdbc.SQLServerException:未为函数提供参数

我如何在 scala 或 pyspark 的笔记本中传递参数和调用 SQL 函数。

0 投票
2 回答
392 浏览

azure - Azure databricks job - notebook snapshot

We are running scheduled databricks jobs on a daily basis in Azure databricks and it runs successfully on all days. But today (29th Sept 2020), the job is failing within few seconds with Internal Error. The error message is given below:

Error while fetching notebook snapshot: HTTP request failed with status: HTTP/1.1 403 Forbidden

Has anyone else faced this issue and knows how to solve this?

0 投票
2 回答
513 浏览

parquet - 写入 parquet 文件会抛出...未指定此请求所必需的 HTTP 标头

我有两个 ADLSv2 存储帐户,都启用了分层命名空间。在我的 Python Notebook 中,我正在从一个存储帐户读取一个 CSV 文件,并在经过一些扩充后将其作为 parquet 文件写入另一个存储。

编写镶木地板文件时出现以下错误...

任何帮助是极大的赞赏。

下面是我的笔记本代码片段...

0 投票
0 回答
21 浏览

python - 如果 Databricks 笔记本中尚未加载函数,则加载函数

我在 Databricks 中编写 Python 代码,我使用的是 spark 2.4.5。

我有几个笔记本用于加载我的维度表和事实表。我有两个用于加载维度和事实的主笔记本。

我开发了一些用于测试、审计和日志记录的 UDF。我需要将我的 UDF 添加到每个笔记本中。现在,我在每个笔记本上都有以下命令

但我想知道,当我运行所有笔记本时,这样做是否会加载多次我的 UDF!

我想也许我必须在我的主笔记本中加载一次我的 UDF,但是当我需要单独运行我的笔记本时,我不知道在开发时我应该做什么。

如果我的 UDF 未加载,是否有任何方法可以在我的笔记本上进行验证,运行 Functions 笔记本?

0 投票
1 回答
353 浏览

apache-zeppelin - 为 Zeppelin 安装解释器

我需要为 zeppelin apache 自定义安装解释器。不是所有的解释器,我只需要 md、shell、python(默认)、jdbc、spark(默认)。我做了一些方法,但失败了:

  1. 通过命令在线安装

    ./bin/install-interpreter.sh --name md,shell,jdbc

但我收到这样的错误:

我这样配置来修复它:在 zeppelin-site.xml

在 zeppelin-env.sh 中

在此处输入图像描述

我将http更改为https,但它没有效果。

  1. 离线安装我从 mvnrepository 下载 jar 文件并运行

    bin/install-interpreter.sh --name md --artifact /tmp/zeppelin-jar/zeppelin-markdown-0.8.2.jar &&
    bin/install-interpreter.sh --name shell --artifact /tmp/zeppelin- jar/zeppelin-shell-0.8.2.jar &&
    bin/install-interpreter.sh --name jdbc --artifact /tmp/zeppelin-jar/zeppelin-jdbc-0.8.2.jar

但是包涉及到许多其他依赖项 jar 需要下载。例子:

如何安装解释器?我希望可以通过在线命令安装。但似乎错误,因为网络。我从公司的 PC 安装

非常感谢大家

0 投票
2 回答
725 浏览

databricks - 删除 Databricks Notebook 的所有单元格

我正在为我正在做的一些火花工作使用 Databricks 笔记本。我最初将笔记本用作概念验证工作,然后对其进行组织,以便我可以从中创建 jar。当我在做 POC 时,我尝试添加很多单元来尝试不同的方式。在一段时间内,笔记本有大量的单元格,并且大部分东西都不需要,因为我已经组织了它并移动到最终的笔记本/Jar 代码。我正在一个一个地删除单元格,但这可能很耗时。所以我只是想知道是否有一种方法可以一次删除笔记本中的所有单元格。

笔记本顶部有一个选项说删除单元格,但是当我单击它时,它只会删除单个单元格,而不是笔记本中的所有单元格。

我看到删除单元格选项的顶部 UI 的快照如下:

在此处输入图像描述