apache-spark - spark是否在单个工作人员中处理大文件

问问题 2016-09-03T09:21:53.890

213 次

0

当使用 Apache Spark 处理一个大文件时，例如，sc.textFile("somefile.xml")它是否将其拆分为跨执行器的并行处理，或者将其作为单个执行器中的单个块处理？
使用数据框时implicit XMLContext，Databricks 是否为此类大型数据集处理预先构建了任何优化？

1 回答 1

1

取决于一个文件。如果文件格式是可拆分的并且文件大于配置的拆分大小，它将在多个执行程序上处理。
XML 源不解析完整的 XML。它只是将行标签标识为在rowTag.

于 2016-09-03T13:47:30.140 回答