0

我正在尝试使用新的 Microsoft.Spark 库设置 spark。DataFrame.PrintSchema 方法工作正常,但是 DataFrame.Take() 方法给出了 System.NotImplementedException。其他方法的分配也给出了这个例外。

我查看了源代码,发现“Take”方法调用了 collect 方法,并且在调用 collectToPython 时失败了。

SparkSession spark = SparkSession
    .Builder()
    .AppName(".NET Spark")
    .GetOrCreate();

DataFrame dataFrame = spark.Read().Json("people.json");
IEnumerable<Row> rows =  dataFrame.Take(1);

这只是一个尚未完成的 Microsoft 库吗?还是我做错了什么?

4

1 回答 1

1

您是否尝试过发布的最新版本?我使用了 v0.2.0,以下工作正常:

var spark = SparkSession.Builder().GetOrCreate();
var df = spark.Read().Json("people.json");

IEnumerable<Row> rows = df.Take(1);
foreach (var row in rows)
{
    Console.WriteLine(row.Get("name"));
}
spark.Stop();
于 2019-06-01T03:16:53.987 回答