我正在开展一个项目,该项目需要在 AWS S3 上存储科学数据作为数据湖开始的原始数据。我们正在为应用程序数据规划 JSON,并使用 S3 元数据来持久化应用程序元数据(JSON 模式)和处理元数据。目前,站点 S3 是我们可以从 AWS 云中获得的唯一服务。
客户想要一个可以将原始数据作为文件取回的发布环境。我们希望避免构建自定义目录和安全基础架构。
我没有看到任何关于 Apache Atlas 将直接连接到 AWS S3 的信息。但我们可以将 Apache Hive 置于 AWS S3 之上,然后将 Apache Atlas 和 Ranger 置于其之上。但不确定这是否是我们可以从 S3 发布原始数据的方式,或者如果 Hive 更像是一个处理环境,这是否也有效。
是否可以直接在 AWS S3 之上使用 Apache Atlas 和 Ranger?