问题标签 [spark-notebook]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

84 问题

0 投票

0 回答

37 浏览

c# - 使参数在 Azure .NET C# Spark Notebook 中起作用

我尝试将字符串参数传递到完全用 .NET Spark C# 编写的 Spark NoteBook 中，无论我尝试什么，它都不起作用。最后做的工作是

将笔记本定义为 PySharp
定义参数 - PySharp
将参数值放在临时表中 - PySharp
然后从 C# 我可以从临时表中提取值并执行我的逻辑。

请参阅底部的示例代码，但有没有人有办法在 C# 中完成这项工作而无需所有的跳跃？

c#apache-spark azure-synapse spark-notebook

2022-02-22T00:53:35.373

0 投票

1 回答

8 浏览

foreach - 如何将 For-Each 当前项目传递到 Azure Spark Notebook

花了几个小时尝试将 for-each 活动中的 @item() 作为字符串传递到 Azure Spark 笔记本。为了让其他人不必为此挣扎，我将提供答案。

foreach azure-synapse spark-notebook

2022-02-22T15:08:23.303

0 投票

1 回答

24 浏览

c# - 运行 Spark Notebook 的 Azure Synapse Pipeline 生成随机错误

我正在处理 Azure Synapse Spark 笔记本中大约 19,710 个包含 IIS 日志文件的目录。每个目录中有 3 个 IIS 日志文件。笔记本读取目录中的 3 个文件，并将它们从分隔的文本转换为 Parquet。没有分区。但偶尔我会无缘无故地收到以下两个错误。

当我收到上述错误时，所有数据都已成功写入 Azure Data Lake Storage Gen2 中的相应文件夹。

有时我得到

当我收到上述错误时，没有任何数据被成功写入 Azure Data Lake Storage Gen2 中的相应文件夹。

在这两种情况下，您都可以看到笔记本确实运行了一段时间。我在 spark 笔记本上启用了 1 次重试，它是一个 pyspark 笔记本，它使用 C# %%csharp 为参数和其余逻辑执行 python。火花池很小（4 核/32GB），有 5 个节点。

笔记本中进行的唯一转换是将字符串列转换为时间戳。

当我说这是随机的时，管道当前正在运行，并且在处理 215 个目录后，有 2 个第一个失败和一个第二个失败。

任何想法或建议将不胜感激。

c#azure-synapse spark-notebook

2022-03-01T22:58:33.807

0 投票

0 回答

10 浏览

python - 新文件到达后触发笔记本运行 - Databricks

我的 dbfs (databricks) 中有 Dataframes 作为 csv 文件。当新文件到达或新文件覆盖旧文件时，如何触发我的笔记本 (ETL)？

python triggers etl databricks spark-notebook

2022-03-02T10:00:14.993

1 2 3 4 5 6 7 8 9 10