0
  1. 当使用 Apache Spark 处理一个大文件时,例如,sc.textFile("somefile.xml")它是否将其拆分为跨执行器的并行处理,或者将其作为单个执行器中的单个块处理?

  2. 使用数据框时implicit XMLContext,Databricks 是否为此类大型数据集处理预先构建了任何优化?

4

1 回答 1

1
  1. 取决于一个文件。如果文件格式是可拆分的并且文件大于配置的拆分大小,它将在多个执行程序上处理。
  2. XML 源不解析完整的 XML。它只是将行标签标识为在rowTag.
于 2016-09-03T13:47:30.140 回答