我想创建一个使用 Spark 在 HDFS 中查询数据的 Java 应用程序。到目前为止,我已经通过 2 种方式进行了测试: - 对 Thrift 服务器公开的 JDBC 端点进行 SQL 查询(从默认配置开始) - 使用 spark dataset api
我的问题是,对于 hadoop/spark 来说是全新的,这两种方法中的哪一种最有效且更容易设置(没有默认配置)?
据我所知,使用 Thrift 服务器需要配置和维护 Thrift 和 Hive。另一方面,我希望使用数据集 API 会更慢并且有更多限制,将数据保存在内存中。