0

spark很懒吧?那么做load()什么呢?

start = timeit.default_timer()

 df = sqlContext.read.option(
     "es.resource", indexes
 ).format("org.elasticsearch.spark.sql")
 end = timeit.default_timer()

 print('without load: ', end - start) # almost instant
 start = timeit.default_timer()

 df = df.load()
 end = timeit.default_timer()
 print('load: ', end - start) # takes 1sec

 start = timeit.default_timer()

 df.show()
 end = timeit.default_timer()
 print('show: ', end - start) # takes 4 sec

如果show()是唯一的动作,我想load不会像 1 秒那样花费太多时间。所以我的结论load()是一个动作(而不是火花的转变)

load 是否实际上将整个数据加载到内存中?我不这么认为,但它有什么作用呢?

我已经搜索并查看了文档https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html但它没有帮助..

4

2 回答 2

3

tl;drload()是一个 DataFrameReader api( org.apache.spark.sql.DataFrameReader#load),从下面的代码中可以看出,它返回一个DataFrame, 在上面可以应用 Spark 转换。

/**
   * Loads input in as a `DataFrame`, for data sources that support multiple paths.
   * Only works if the source is a HadoopFsRelationProvider.
   *
   * @since 1.6.0
   */
  @scala.annotation.varargs
  def load(paths: String*): DataFrame

需要创建一个 DataFrame 来执行转换。
要从路径(HDFS、S3 等)创建数据帧,用户可以使用spark.read.format("<format>").load()。(还有数据源特定的 API 可以自动加载文件,如spark.read.parquet(<path>)

为什么需要整整 1 秒?

在基于文件的源中,这个时间可以归因于文件列表。在 HDFS 中,这些列表并不昂贵,而在像 S3 这样的云存储的情况下,这个列表非常昂贵,并且花费的时间与文件数量成正比。
在您的情况下,使用的数据源是elastic-search,时间可归因于连接建立、收集元数据以执行分布式扫描等,这取决于 Elastic serach 连接器实现。我们可以启用调试日志并检查更多信息。如果弹性搜索有办法记录它收到的请求,我们可以检查弹性搜索日志以查找在时间load()触发后发出的请求。

于 2019-06-30T07:24:23.760 回答
0

它什么也不做。它只是作为参数的 sqlContext.read 的一部分,您没有直接在读取时设置。read 允许指定数据格式。正如他们所说,DF 或底层 RDD 被懒惰地评估。

于 2019-06-29T16:25:35.767 回答