当使用 Apache Spark 处理一个大文件时,例如,
sc.textFile("somefile.xml")
它是否将其拆分为跨执行器的并行处理,或者将其作为单个执行器中的单个块处理?使用数据框时
implicit XMLContext
,Databricks 是否为此类大型数据集处理预先构建了任何优化?
问问题
213 次
当使用 Apache Spark 处理一个大文件时,例如,sc.textFile("somefile.xml")
它是否将其拆分为跨执行器的并行处理,或者将其作为单个执行器中的单个块处理?
使用数据框时implicit XMLContext
,Databricks 是否为此类大型数据集处理预先构建了任何优化?