假设我将数据(用户事件)存储在 S3 或 HDFS 等分布式文件系统中。用户事件按日期存储在目录中。
案例 1 考虑 spark 作业需要读取一天的数据。我的理解是,单个spark job会从当天目录中读取数据,并逐块读取数据,将数据提供给spark集群进行计算。逐块读取过程会是顺序的吗?
案例 2 考虑到 spark 作业需要读取数据超过一天(比如 2 天) 问题:这里的作业必须从两个单独的目录中读取数据。我是否需要启动两个单独的 spark 进程(或线程),以便可以并行执行从单独目录读取的数据?