0

我正在使用 Spark scala shell 并尝试从文本文件创建数据框和数据集。

要从文本文件中获取数据集,有两个选项,text 和 textFile 方法,如下所示:

scala> spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile

以下是我如何从这两种方法中获取数据集和数据框:

scala> val df = spark.read.text("/Users/karanverma/Documents/logs1.txt")
df: org.apache.spark.sql.DataFrame = [value: string]

scala> val df = spark.read.textFile("/Users/karanverma/Documents/logs1.txt")
df: org.apache.spark.sql.Dataset[String] = [value: string]

所以我的问题是文本文件的两种方法有什么区别?

什么时候使用哪些方法?

4

1 回答 1

1

我注意到它们几乎具有相同的功能,

只是spark.read.text将数据转换Dataset为分布式数据集合,而spark.read.textFile将数据转换Dataset[Type]为由组织成命名列的数据集组成。

希望能帮助到你。

于 2019-03-28T12:05:21.430 回答