问题标签 [spark-dotnet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3621 浏览

c# - 通过 C# 的 Apache Spark 查询

我想知道是否有一种方法可以使用 C# 编写查询以在 Apache spark 上运行。我知道 spark SQL 查询可以用 java/scala/python 编写。c#有接口吗?

0 投票
4 回答
5299 浏览

c# - 从 C# 提交 Spark 作业并获得结果

根据标题,我想请求对Spark集群(Azure 中的本地/HDInsight)进行计算,并从 C# 应用程序中获取结果。

我承认Livy的存在,我理解它是一个位于Spark之上的 REST API 应用程序来查询它,我还没有找到标准的C# API包。这是适合这项工作的工具吗?它只是缺少一个众所周知的C# API吗?

Spark集群需要访问Azure Cosmos DB ,因此我需要能够提交包括连接器 jar 库(或其在集群驱动程序上的路径)的作业,以便SparkCosmos读取数据。

0 投票
1 回答
108 浏览

c# - Microsoft.Spark 中 Take 方法的方法未实现异常

我正在尝试使用新的 Microsoft.Spark 库设置 spark。DataFrame.PrintSchema 方法工作正常,但是 DataFrame.Take() 方法给出了 System.NotImplementedException。其他方法的分配也给出了这个例外。

我查看了源代码,发现“Take”方法调用了 collect 方法,并且在调用 collectToPython 时失败了。

这只是一个尚未完成的 Microsoft 库吗?还是我做错了什么?

0 投票
2 回答
1980 浏览

c# - 从 C# 列表创建数据框 - Spark for .NET

我目前是 .NET for Spark 的新手,需要将 C# 列表附加到增量表。我假设我首先需要创建一个 Spark DataFrame 来执行此操作。在示例代码中,我将如何将“名称”附加到数据框“df”?

现在看来,这已被弃用(https://github.com/Microsoft/Mobius),使用 RDD 不适用于新版本(https://github.com/dotnet/spark

示例文件 people.json 如下所示:

0 投票
1 回答
205 浏览

c# - .Net 用于针对 ADLS(Azure 数据湖存储)第 1 代的 Apache Spark 身份验证

我是apache spark的新手。我正在尝试使用 Microsoft apache nuget 库从 ADLS 读取数据。我似乎无法弄清楚如何使用 spark 进行身份验证。似乎根本没有关于此的文档。这甚至可能吗?我正在编写一个 .Net 框架控制台应用程序。

任何帮助/指针将不胜感激!

0 投票
1 回答
183 浏览

c# - 在 C# 中迭代​​ spark 数据框列

我正在使用 microsoft.spark 版本 1.0.0 来处理从网络接收到的 parquet 文件。我已将镶木地板文件映射到 Dataframe 中,并且我试图从存储为电子邮件地址的 userid 列中删除别名(用户 testuser 保存为 testuser@gmail.com)。似乎无法弄清楚如何将 Column 变成一个可枚举的并且没有内置的方法来迭代该列。任何指针都会有所帮助

0 投票
0 回答
63 浏览

c# - C# Apache Spark orc 文件路径存在于 adls 上

在这里点燃新手。我有大量数据被收集并存储在一个文件夹中,这些数据与它在 ADLS 上发生的日期相对应。每个文件夹都根据日期命名(例如:<2020-12-04>)。我正在尝试查询最近 30 天内发生的最新数据。目前,我正在尝试从 adls 中读取并尝试切换日期,直到我受到打击,但我无法找到一种方法来检查提供的路径是否有效。导致错误。任何指针都会有所帮助

0 投票
0 回答
111 浏览

c# - Apache Spark 数据帧到 C# 中的 csv 导出

Apache spark新手在这里。我正在使用 Apache Spark for .net 从 ADLS 查询一个非常大的数据集。查询我的数据后,我想将数据帧转换为 csv 文件并将其发送到使用 csv 文件的 api。我有以下

这需要几个小时才能完成,并且对于我正在尝试做的事情来说并不是最佳选择。有没有办法以更优化的方式生成 csv 并将其发送到消费 api 而不是在本地输出?

0 投票
1 回答
30 浏览

apache-spark - 将 spark-submit 命令(用于 spark 应用程序的 dotnet)转换为用于 python 应用程序的 spark-submit 命令

如果以下(工作)spark-submit 命令(用于 Spark 应用程序的 dotnet)正在执行 python 脚本,它是否仍会使用相同的 --conf 设置?给定一个名为 myapp.py 的 python 脚本名称,它没有定义函数(除了main), --class 引用对于 python 脚本来说是什么?

0 投票
0 回答
11 浏览

apache-spark - 使用原生 Spark REST API 触发 dotnet for Spark 作业的解决方案(独立集群)

我找了很长一段时间来寻找一种使用本机 spark REST api 触发 dotnet spark 作业的方法,但没有找到任何东西,但最终通过 CLI 运行 spark-submit 并指定 --master spark:/ 找到了解决方案/spark:6066 然后比较在工作节点上执行的驱动程序启动命令。

如果这对其他人有帮助,这里是一个示例 post 命令的主体(使用 Postman),用于本机 Spark REST API 触发 dotnet spark 应用程序。

Spark REST API 端点:http://[localhost or dns name or ip address]:6066/v1/submissions/create

HTH