问题标签 [mobius]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
525 浏览

c# - 将 sql server 数据访问到 SparkCLR

SparkCLR 中如何从 SQL Server 中获取数据?

0 投票
1 回答
275 浏览

apache-spark - 将 SparkCLR 中创建的 DataFrame 与 zeppelin 查询一起使用

我是 Java 和 Spark 世界的新手,我发现了一个令人印象深刻的库,用于为 Spark 提供C# 绑定,它允许我们使用 C# 来处理 SparkSQL。

我在一个具有 ODBC 和 OPC 接口的自定义数据存储中拥有大量的过程数据。我们希望公开这些数据,Apache Spark以便我们可以使用类似的工具对这些数据运行分析查询Apache Zeppelin

由于我的自定义存储上没有 jdbc 接口,我正在考虑创建 c# 代码以使用可用的 ODBC 接口从自定义数据存储中提取数据并使用historyDataFrame.RegisterTempTable("mydata");

我能够创建一个示例并使用 C# 示例中的 SQL 对其进行查询,但我无法理解的是如何将其用于触发,以便我可以使用Apache Zeppelin.

此外,将大量数据加载到 中的最佳方法是什么SPARK SQL,尝试在示例中执行类似的操作可能无法加载超过一百万条记录。

跳到这里获得一些指示以使其正常工作。

0 投票
3 回答
567 浏览

apache-spark - SparkCLR:处理文本文件失败

我正在尝试学习 SparkCLR 来处理文本文件并使用Sample如下方式在其上运行 Spark SQL 查询:

但这一直给我一个错误,上面写着:

我的文本文件如下所示:

我使用它的方式有什么问题吗?

编辑 1

我已将以下内容设置为我的 Samples 项目属性:

在此处输入图像描述

我的用户环境变量如下:(不确定是否重要)

在此处输入图像描述

另外我在SparkCLRWorker 日志中看到它无法根据日志加载程序集:

0 投票
2 回答
471 浏览

c# - 使用 Spark 和 C# 处理 XML 文件

我正在开发一个系统,该系统将充当模拟工具链数据集的 OLAP 引擎。这些工具以 XML 格式生成结果。

对我来说最简单和最简单的解决方案是简单地使用 spark-xml 直接使用 python、Scala 等访问 XML 文件。但问题是项目所有者希望使用 C#,因为这就是原始模拟工具链是内置的。我知道 C# 有 SparkCLR,但我不知道在 C# 中使用 Spark-XML 的好方法。

有人对如何做到这一点有任何建议吗?如果不是,我猜下一个选项是将数据集转换为更适合 SparkCLR 的原生数据,但不确定最佳方法。

0 投票
1 回答
456 浏览

apache-spark - 在独立集群上运行 PI 示例的问题

首先让我说我是Spark、SparkR、Hadoop 等的新手……我是 .NET 开发人员,负责将我们的 .NET 应用程序与 Apache Spark 以及最终的 Apache SparkR 集成。我目前能够在本地运行示例,但是当指向我的 Linux 集群(主:spark01,从属:spark02-spark05)时,我无法运行 PI 示例。当我使用以下脚本时,出现以下错误。

错误:

作为文档和快速入门,我有几个问题:https ://github.com/Microsoft/SparkCLR/wiki/Quick-Start ,并没有真正谈论它。

当快速入门说要对独立集群环境使用以下命令时:

我了解在第一行导航到运行时文件夹(本地或提交服务器上)。我指定了 master,所以它知道要在哪个 spark 集群上运行(这是远程 spark 集群)。现在,令人困惑的是,我们仍然指向 Pi 可执行文件和临时目录的本地(Windows)文件系统吗?我们还可以指定一个数据目录吗?如果我们为数据指定集群上的 linux 目录,格式是什么(尤其是如果我们不使用 Hadoop)?user@spark url:/path/to/sparkclr/runtime/samples/Pi/bin?

我们目前正在寻找使用 Spark 和 SparkR 从我们的应用程序中进行处理,我只是想了解您的 API 如何与 Spark 交互、提交工作、检索结果等。

任何帮助启动和运行集群示例(客户端和集群模式)将不胜感激。

谢谢,

斯科特

0 投票
2 回答
2256 浏览

c# - 有没有办法从 Mobius 将 hdfs 中的 Parquet 文件读取到 SqlContext 中?

我知道在 Scala 中,您可以读取 parquet 文件,如下所示:

有没有办法使用 Mobius(C# API for Spark)来做到这一点?我只能找到一种读取 CSV 文件的方法。参考:https ://github.com/Microsoft/Mobius

0 投票
1 回答
643 浏览

apache-spark - Mobius:如何为 c# 应用程序设置 CSharpBackendPortNumber 以在 Linux 上与 Spark 集群通信?

我有这个非常基本的代码可以从连接到在 linux 虚拟机上运行的 spark 集群的 windows 机器运行:

按照“入门页面”中的说明进行操作(在 windows 网关机器上安装 spark 和其他先决条件):

D:\SparkCLR\runtime>scripts\sparkclr-submit.cmd --master spark://192.168.1.193:7077 --total-executor-cores 2 --exe Spark kCLR.exe "C:\Users\aaa\Documents \Visual Studio 2015\Projects\SparkCLR\SparkCLR\bin\Debug"

得到这个错误:

SPARKCLR_JAR=spark-clr_2.10-1.6.100.jar org.apache.spark.launcher.SparkCLRSubmitArguments.concatCmdOptions(SparkCLRSubmitArguments.scala:389) 在 org.apache.spark 的线程“主”java.lang.NullPointerException 中的异常。 launcher.SparkCLRSubmitArguments.buildCmdOptions(SparkCLRSubmitArguments.scala:492) at org.apache.spark.launcher.SparkCLRSubmitArguments$.main(SparkCLRSubmitArguments.scala:30) at org.apache.spark.launcher.SparkCLRSubmitArguments.main(SparkCLRSubmitArguments.scala) D :\SparkCLR\runtime>scripts\sparkclr-submit.cmd --verbose --master spark://192.168.1.193:7077 --total-executor-cores 2 --exe SparkCLR.exe "C:\Users\aaa\ Documents\Visual Studio 2015\Projects\SparkCLR\SparkCLR\bin\Debug" SPARKCLR_JAR=spark-clr_2.10-1.6.100.jar 线程“main”java.lang 中的异常。NullPointerException at org.apache.spark.launcher.SparkCLRSubmitArguments.concatCmdOptions(SparkCLRSubmitArguments.scala:389) at org.apache.spark.launcher.SparkCLRSubmitArguments.buildCmdOptions(SparkCLRSubmitArguments.scala:492) at org.apache.spark.launcher.SparkCLRSubmitArguments$ .main(SparkCLRSubmitArguments.scala:30) 在 org.apache.spark.launcher.SparkCLRSubmitArguments.main(SparkCLRSubmitArguments.scala)主要(SparkCLRSubmitArguments.scala)主要(SparkCLRSubmitArguments.scala)

有什么想法吗?

0 投票
1 回答
160 浏览

c# - Mobius (SparkCLR) 中不再提供 SaveAsTextFile 方法吗?

嗨,我正在尝试运行直接从Mobius Github复制的以下示例。但是当尝试使用方法 SaveAsTextFile(string filepath) 时,它没有找到该方法。相反,它显示了图 1 中的错误。

我引用的是最新发布的:“Microsoft.SparkCLR”版本=“1.6.100”。

图 1:不包含定义....最好的选择等等等等

0 投票
1 回答
227 浏览

c# - Java MongoDB Hadoop 连接器是否有 C# 等效项?

我正在使用Mobius(Spark 的 C# 语言绑定)和 MongoDB 的 C# 驱动程序。我的目标是在我的 C# 应用程序中使用 MongoDB 作为 Spark 查询的输入/输出。我知道有一个 Java MongoDB Hadoop 连接器,但我想继续使用 Mobius 来编写我的 Spark 查询。

0 投票
1 回答
206 浏览

c# - Window 环境下安装 Mobius 遇到困难?

我基本上是一个 .net 程序员,我的任务是使用 SPARK 和 Cassandra 分析数据。我一直在寻找与 SPARK 一起使用的 C# API,但我发现了 Mobius(因为我不知道 JAVA)。我开始从 GitHub 下载 Mobius 项目,并且按照 Windows 的构建,我按照上面提到的步骤进行操作,但无法正常工作。我对此有以下问题。

1)我在 Ubuntu 机器上有一个 DataStax 企业,我的 Cassandra 和 SPARK 可用(独立)。现在我想从我的 .NET 项目连接到 SPARK,然后在 Cassandra 中处理数据。我可以这样做吗?我想在调试模式下这样做吗?我只会使用 SPARK-SQL,因为我对 SQL 很熟悉。

2)为了让Mobius工作,必须在我的Windows机器上安装SOLR和SPARK吗?我可以从 Windows SPARK 和 Mobius 连接到 CASSANDRA(Ubuntu 机器)吗?

3) 当我运行命令“<strong>sparkclr-submit.cmd debug”来获取CSharpBackendPortNumber的值时,我收到一个错误“<strong>load-spark-env.cmd”丢失。我在哪里可以找到这个文件以及如何获得 CSharpBackendPortNumber 的值?我的 Windows 机器中是否有必要安装 SPARK?