问题标签 [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
51 浏览

azure-synapse - display(df.limit(10)) 在突触笔记本中并不总是有效

在突触笔记本中,运行 display(df.limit(10)) 并不总是有效。它通常在笔记本第一次运行时工作,但过了一段时间,如果我再次运行它,它不会显示 df。

服务器没有死机或超时,代码仍在执行。

代码单元运行,没有抛出错误,它根本不显示数据。我不知道在什么时候,或者发生了什么改变来阻止它显示,并询问是否有人经历过这种情况。

由于没有错误,我没有进一步提供,但如果有什么我应该检查的,请告诉我。

谢谢!

0 投票
1 回答
1549 浏览

pyspark - 如何在数据块中将数据框作为笔记本参数传递?

我有一个要求,我需要将 pyspark 数据帧作为笔记本参数传递给子笔记本。本质上,子笔记本几乎没有参数类型为数据框的函数来执行某些任务。现在的问题是我无法使用(不将其写入临时目录)将数据框传递给此子笔记本

我尝试引用此 url - 从 databricks 中的另一个笔记本返回数据帧

但是,我仍然有点困惑如何将数据帧从子笔记本返回到父笔记本,以及从父笔记本返回到另一个子笔记本。

我尝试编写如下代码 -

但它只是返回第一个 tempView 的模式。

请帮忙。我是pyspark的新手。

谢谢。

0 投票
2 回答
498 浏览

github - 我们如何在 azure databricks notebook 中访问 github repo 中的文件

我们有一个要求,我们需要访问托管在我们的 Azure Databricks 笔记本中的 github 私有 repo 上的文件。目前我们正在使用 curl 命令使用用户的个人访问令牌来执行此操作。

有没有办法我们可以避免使用 PAT 并使用部署密钥或任何东西?

0 投票
1 回答
70 浏览

scala - 当逗号存在时,spark.sql 写入 csv 会导致列数据移位问题

我在我的 azure databricks 笔记本中使用 scala 作为编程语言,我的数据框给了我准确的结果,但是当我试图在 csv 中存储相同的结果时,它会移动逗号(,)来的单元格

这里有一列具有256GB SSD、Keyb.:之类的数据,因此在使用上述函数编写它时,它在另一个单元格中的逗号(,)之后显示字符串。任何火花内置解决方案都适用...

0 投票
0 回答
59 浏览

jupyter-notebook - 将外部 jar 上传到 EMR jupyter notebook 的 EMR 集群的所有节点

我想在 EMR 集群的所有实例/节点中使用外部 jar,以便它可以在 EMR jupyter notebook 中进一步使用。我目前正在使用以下

#!/bin/bash aws s3 cp s3://<bucket-name>/<prefix>/jars/TFSReconArtifacts-1.0-WithDependencies.jar /home/hadoop/jars/

但是在 EMR jupyter notebook 中引用相同内容时,我无法访问或在此路径中找到任何内容。(/home/hadoop/jars)

目标 我的主要目标是在 EMR jupyter notebook 中使用外部 jar,它的大小约为 300Mb。我已经尝试过更小的 jar,它可以通过在 jupyter notebook 中使用这个命令来工作,但是对于更大的 jar,它不起作用:

0 投票
3 回答
119 浏览

python - 导入 Pandas 时出现 Apache Zeppelin 错误

将 Pandas 库导入 Zeppelin 笔记本时,我遇到了一个奇怪的错误。这是我作为单元格的一部分的基本代码:

我收到以下错误:

我试图看看我的 Python 路径是什么样的,它是:

这给了我以下信息:

我正在使用 Zeppelin 0.10.0。

编辑:

我尝试了以下方法:

熊猫似乎已经安装:

我什至在 Zeppelin 中设置了 python 解释器,如下所示:

在此处输入图像描述

0 投票
0 回答
87 浏览

apache-spark - 从 C#/api 编排 Azure 突触火花笔记本

有没有办法像 api 或 sdk 一样从 c# 执行笔记本。我发现以下内容来创建和更新笔记本https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.artifacts-readme-pre,没有什么可以像我提交一样触发它Spark 批处理https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.spark-readme-pre

0 投票
1 回答
81 浏览

azure - 将字符串转换为 Azure Data Bricks 中归档的日期时间

我有以下文本字符串,表示来自应用程序的日期时间。

2021-11-22 下午 7:28:47

我需要将其转换为日期时间才能执行 DATE ADD 操作。

我尝试了很多方法都没有成功,它在 Azure Data Bricks 中给了我 null 。

最近尝试的屏幕截图

0 投票
1 回答
63 浏览

c# - 如何在 Azure Synapse Spark Notebook 中展平简单的 Json 文件并转换为 Parquet

我需要在 Azure Synapse Analytics 的 Spark Notebook 中展平一个简单的 Json 文件(json 行)并将其转换为 Parquet 格式。任何列都只有一层嵌套对象。但是,我发现获取数据框的架构并没有返回嵌套对象的架构。我使用的是 c#,以便其他公司开发人员不必学习其他支持的语言。

0 投票
1 回答
30 浏览

scala - 如何从 adf 管道中的笔记本返回整数值

我有一个用例,我需要从管道中的突触笔记本返回一个整数作为输出,并将此输出传递到管道的下一阶段。

目前mssparkutils.notebook.exit()只接受字符串值。有没有可用的实用方法?我知道我们可以将整数转换为字符串类型并将其发送到exit("")方法。我想知道我是否可以在不铸造的情况下实现这一目标。