1

我在 Kubernetes 上有一个独立的 spark 集群,我想用它在内存中加载一些临时视图,并使用 spark thrift 服务器通过 JDBC 公开它们。

我已经通过提交一个 spark 作业(在我的例子中为 pyspark)并在同一个作业中启动 thrift 服务器来让它在没有安全性的情况下工作,这样我就可以访问临时视图。

由于我需要公开一些敏感数据,我想至少应用一种身份验证机制。

我读了很多书,基本上看到了两种方法:

  • PAM - 不建议用于生产,因为某些关键文件需要授予 root 用户之外的用户权限。
  • Kerberos - 这似乎是最适合这种情况的一个。

我的问题是: - 对于独立的 spark 集群(在 K8s 上运行),Kerberos 是最好的方法吗?如果不是,是哪一个?- 如果 Kerberos 是最好的,那么在我没有使用任何特定发行版(MapR、Hortonworks 等)的情况下,很难找到一些指导或逐步说明如何设置 Kerberos 以与 spark thrift 服务器一起使用.

感谢你的帮助

4

0 回答 0