我正在尝试实现一个简单的 Spark SQL 应用程序,它将查询作为输入并处理数据。但是因为我需要缓存数据并且我必须维护一个 SQL Context 对象。我无法理解如何使用相同的 SQL 上下文并不断从用户那里获取查询。
那么应用程序是如何工作的呢?当应用程序提交到集群时,它是继续在集群上运行还是执行特定任务并在任务完成后立即关闭?
我正在尝试实现一个简单的 Spark SQL 应用程序,它将查询作为输入并处理数据。但是因为我需要缓存数据并且我必须维护一个 SQL Context 对象。我无法理解如何使用相同的 SQL 上下文并不断从用户那里获取查询。
那么应用程序是如何工作的呢?当应用程序提交到集群时,它是继续在集群上运行还是执行特定任务并在任务完成后立即关闭?
Spark 应用程序有一个驱动程序,用于启动和配置 Spark 上下文。驱动程序可以在您的应用程序中,您可以在应用程序的整个生命周期中使用相同的 Spark 上下文。
Spark Context 是线程安全的,因此多个用户可以使用它同时运行作业。
有一个开源项目Zeppelin可以做到这一点。