问题标签 [spark-notebook]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-synapse - display(df.limit(10)) 在突触笔记本中并不总是有效
在突触笔记本中,运行 display(df.limit(10)) 并不总是有效。它通常在笔记本第一次运行时工作,但过了一段时间,如果我再次运行它,它不会显示 df。
服务器没有死机或超时,代码仍在执行。
代码单元运行,没有抛出错误,它根本不显示数据。我不知道在什么时候,或者发生了什么改变来阻止它显示,并询问是否有人经历过这种情况。
由于没有错误,我没有进一步提供,但如果有什么我应该检查的,请告诉我。
谢谢!
pyspark - 如何在数据块中将数据框作为笔记本参数传递?
我有一个要求,我需要将 pyspark 数据帧作为笔记本参数传递给子笔记本。本质上,子笔记本几乎没有参数类型为数据框的函数来执行某些任务。现在的问题是我无法使用(不将其写入临时目录)将数据框传递给此子笔记本
我尝试引用此 url - 从 databricks 中的另一个笔记本返回数据帧
但是,我仍然有点困惑如何将数据帧从子笔记本返回到父笔记本,以及从父笔记本返回到另一个子笔记本。
我尝试编写如下代码 -
但它只是返回第一个 tempView 的模式。
请帮忙。我是pyspark的新手。
谢谢。
github - 我们如何在 azure databricks notebook 中访问 github repo 中的文件
我们有一个要求,我们需要访问托管在我们的 Azure Databricks 笔记本中的 github 私有 repo 上的文件。目前我们正在使用 curl 命令使用用户的个人访问令牌来执行此操作。
有没有办法我们可以避免使用 PAT 并使用部署密钥或任何东西?
scala - 当逗号存在时,spark.sql 写入 csv 会导致列数据移位问题
我在我的 azure databricks 笔记本中使用 scala 作为编程语言,我的数据框给了我准确的结果,但是当我试图在 csv 中存储相同的结果时,它会移动逗号(,)来的单元格
这里有一列具有256GB SSD、Keyb.:之类的数据,因此在使用上述函数编写它时,它在另一个单元格中的逗号(,)之后显示字符串。任何火花内置解决方案都适用...
jupyter-notebook - 将外部 jar 上传到 EMR jupyter notebook 的 EMR 集群的所有节点
我想在 EMR 集群的所有实例/节点中使用外部 jar,以便它可以在 EMR jupyter notebook 中进一步使用。我目前正在使用以下
#!/bin/bash aws s3 cp s3://<bucket-name>/<prefix>/jars/TFSReconArtifacts-1.0-WithDependencies.jar /home/hadoop/jars/
但是在 EMR jupyter notebook 中引用相同内容时,我无法访问或在此路径中找到任何内容。(/home/hadoop/jars)
目标 我的主要目标是在 EMR jupyter notebook 中使用外部 jar,它的大小约为 300Mb。我已经尝试过更小的 jar,它可以通过在 jupyter notebook 中使用这个命令来工作,但是对于更大的 jar,它不起作用:
apache-spark - 从 C#/api 编排 Azure 突触火花笔记本
有没有办法像 api 或 sdk 一样从 c# 执行笔记本。我发现以下内容来创建和更新笔记本https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.artifacts-readme-pre,没有什么可以像我提交一样触发它Spark 批处理https://docs.microsoft.com/en-us/dotnet/api/overview/azure/analytics.synapse.spark-readme-pre。
c# - 如何在 Azure Synapse Spark Notebook 中展平简单的 Json 文件并转换为 Parquet
我需要在 Azure Synapse Analytics 的 Spark Notebook 中展平一个简单的 Json 文件(json 行)并将其转换为 Parquet 格式。任何列都只有一层嵌套对象。但是,我发现获取数据框的架构并没有返回嵌套对象的架构。我使用的是 c#,以便其他公司开发人员不必学习其他支持的语言。
scala - 如何从 adf 管道中的笔记本返回整数值
我有一个用例,我需要从管道中的突触笔记本返回一个整数作为输出,并将此输出传递到管道的下一阶段。
目前mssparkutils.notebook.exit()只接受字符串值。有没有可用的实用方法?我知道我们可以将整数转换为字符串类型并将其发送到exit("")方法。我想知道我是否可以在不铸造的情况下实现这一目标。