问题标签 [spark-notebook]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

84 问题

0 投票

1 回答

51 浏览

azure-synapse - display(df.limit(10)) 在突触笔记本中并不总是有效

在突触笔记本中，运行 display(df.limit(10)) 并不总是有效。它通常在笔记本第一次运行时工作，但过了一段时间，如果我再次运行它，它不会显示 df。

服务器没有死机或超时，代码仍在执行。

代码单元运行，没有抛出错误，它根本不显示数据。我不知道在什么时候，或者发生了什么改变来阻止它显示，并询问是否有人经历过这种情况。

由于没有错误，我没有进一步提供，但如果有什么我应该检查的，请告诉我。

谢谢！

azure-synapse spark-notebook

2021-08-26T12:41:08.590

0 投票

1 回答

1549 浏览

pyspark - 如何在数据块中将数据框作为笔记本参数传递？

我有一个要求，我需要将 pyspark 数据帧作为笔记本参数传递给子笔记本。本质上，子笔记本几乎没有参数类型为数据框的函数来执行某些任务。现在的问题是我无法使用（不将其写入临时目录）将数据框传递给此子笔记本

我尝试引用此 url - 从 databricks 中的另一个笔记本返回数据帧

但是，我仍然有点困惑如何将数据帧从子笔记本返回到父笔记本，以及从父笔记本返回到另一个子笔记本。

我尝试编写如下代码 -

但它只是返回第一个 tempView 的模式。

请帮忙。我是pyspark的新手。

谢谢。

2021-08-30T14:29:30.367

0 投票

2 回答

498 浏览

github - 我们如何在 azure databricks notebook 中访问 github repo 中的文件

我们有一个要求，我们需要访问托管在我们的 Azure Databricks 笔记本中的 github 私有 repo 上的文件。目前我们正在使用 curl 命令使用用户的个人访问令牌来执行此操作。

有没有办法我们可以避免使用 PAT 并使用部署密钥或任何东西？

github access-token databricks azure-databricks spark-notebook

2021-09-20T11:59:02.200

0 投票

1 回答

70 浏览

scala - 当逗号存在时，spark.sql 写入 csv 会导致列数据移位问题

我在我的 azure databricks 笔记本中使用 scala 作为编程语言，我的数据框给了我准确的结果，但是当我试图在 csv 中存储相同的结果时，它会移动逗号（，）来的单元格

这里有一列具有256GB SSD、Keyb.:之类的数据，因此在使用上述函数编写它时，它在另一个单元格中的逗号（，）之后显示字符串。任何火花内置解决方案都适用...

scala csv azure-databricks comma spark-notebook

2021-10-25T09:51:04.773

0 投票

0 回答

59 浏览

jupyter-notebook - 将外部 jar 上传到 EMR jupyter notebook 的 EMR 集群的所有节点

我想在 EMR 集群的所有实例/节点中使用外部 jar，以便它可以在 EMR jupyter notebook 中进一步使用。我目前正在使用以下

#!/bin/bash aws s3 cp s3://<bucket-name>/<prefix>/jars/TFSReconArtifacts-1.0-WithDependencies.jar /home/hadoop/jars/

但是在 EMR jupyter notebook 中引用相同内容时，我无法访问或在此路径中找到任何内容。（/home/hadoop/jars）

目标我的主要目标是在 EMR jupyter notebook 中使用外部 jar，它的大小约为 300Mb。我已经尝试过更小的 jar，它可以通过在 jupyter notebook 中使用这个命令来工作，但是对于更大的 jar，它不起作用：

jupyter-notebook amazon-emr jupyter-lab spark-notebook

2021-10-26T16:16:00.837

0 投票

3 回答

119 浏览

python - 导入 Pandas 时出现 Apache Zeppelin 错误

将 Pandas 库导入 Zeppelin 笔记本时，我遇到了一个奇怪的错误。这是我作为单元格的一部分的基本代码：

我收到以下错误：

我试图看看我的 Python 路径是什么样的，它是：

这给了我以下信息：

我正在使用 Zeppelin 0.10.0。

编辑：

我尝试了以下方法：

熊猫似乎已经安装：

我什至在 Zeppelin 中设置了 python 解释器，如下所示：

python pandas apache-zeppelin spark-notebook

2021-11-04T15:47:25.990

0 投票

0 回答

87 浏览

apache-spark - 从 C#/api 编排 Azure 突触火花笔记本

有没有办法像 api 或 sdk 一样从 c# 执行笔记本。我发现以下内容来创建和更新笔记本https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.artifacts-readme-pre，没有什么可以像我提交一样触发它Spark 批处理https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.spark-readme-pre。

apache-spark pyspark azure-synapse azure-sdk-.net spark-notebook

2021-11-08T21:49:05.767

0 投票

1 回答

81 浏览

azure - 将字符串转换为 Azure Data Bricks 中归档的日期时间

我有以下文本字符串，表示来自应用程序的日期时间。

2021-11-22 下午 7:28:47

我需要将其转换为日期时间才能执行 DATE ADD 操作。

我尝试了很多方法都没有成功，它在 Azure Data Bricks 中给了我 null 。

azure apache-spark-sql azure-databricks spark-notebook

2021-11-22T21:14:13.957

0 投票

1 回答

63 浏览

c# - 如何在 Azure Synapse Spark Notebook 中展平简单的 Json 文件并转换为 Parquet

我需要在 Azure Synapse Analytics 的 Spark Notebook 中展平一个简单的 Json 文件（json 行）并将其转换为 Parquet 格式。任何列都只有一层嵌套对象。但是，我发现获取数据框的架构并没有返回嵌套对象的架构。我使用的是 c#，以便其他公司开发人员不必学习其他支持的语言。

c#json parquet azure-synapse spark-notebook

2022-02-11T18:10:43.283

0 投票

1 回答

30 浏览

scala - 如何从 adf 管道中的笔记本返回整数值

我有一个用例，我需要从管道中的突触笔记本返回一个整数作为输出，并将此输出传递到管道的下一阶段。

目前mssparkutils.notebook.exit()只接受字符串值。有没有可用的实用方法？我知道我们可以将整数转换为字符串类型并将其发送到exit("")方法。我想知道我是否可以在不铸造的情况下实现这一目标。

scala azure-data-factory azure-synapse azure-data-flow spark-notebook

2022-02-17T17:46:17.373

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-notebook]

Reference