问题标签 [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
37 浏览

c# - 使参数在 Azure .NET C# Spark Notebook 中起作用

我尝试将字符串参数传递到完全用 .NET Spark C# 编写的 Spark NoteBook 中,无论我尝试什么,它都不起作用。最后做的工作是

  1. 将笔记本定义为 PySharp
  2. 定义参数 - PySharp
  3. 将参数值放在临时表中 - PySharp
  4. 然后从 C# 我可以从临时表中提取值并执行我的逻辑。

请参阅底部的示例代码,但有没有人有办法在 C# 中完成这项工作而无需所有的跳跃?

0 投票
1 回答
8 浏览

foreach - 如何将 For-Each 当前项目传递到 Azure Spark Notebook

花了几个小时尝试将 for-each 活动中的 @item() 作为字符串传递到 Azure Spark 笔记本。为了让其他人不必为此挣扎,我将提供答案。

0 投票
1 回答
24 浏览

c# - 运行 Spark Notebook 的 Azure Synapse Pipeline 生成随机错误

我正在处理 Azure Synapse Spark 笔记本中大约 19,710 个包含 IIS 日志文件的目录。每个目录中有 3 个 IIS 日志文件。笔记本读取目录中的 3 个文件,并将它们从分隔的文本转换为 Parquet。没有分区。但偶尔我会无缘无故地收到以下两个错误。

在此处输入图像描述

当我收到上述错误时,所有数据都已成功写入 Azure Data Lake Storage Gen2 中的相应文件夹。

有时我得到 在此处输入图像描述

当我收到上述错误时,没有任何数据被成功写入 Azure Data Lake Storage Gen2 中的相应文件夹。

在这两种情况下,您都可以看到笔记本确实运行了一段时间。我在 spark 笔记本上启用了 1 次重试,它是一个 pyspark 笔记本,它使用 C# %%csharp 为参数和其余逻辑执行 python。火花池很小(4 核/32GB),有 5 个节点。

笔记本中进行的唯一转换是将字符串列转换为时间戳。

当我说这是随机的时,管道当前正在运行,并且在处理 215 个目录后,有 2 个第一个失败和一个第二个失败。

任何想法或建议将不胜感激。

0 投票
0 回答
10 浏览

python - 新文件到达后触发笔记本运行 - Databricks

我的 dbfs (databricks) 中有 Dataframes 作为 csv 文件。当新文件到达或新文件覆盖旧文件时,如何触发我的笔记本 (ETL)?