我正在我的公司实施我的第一个“自动化”数据摄取管道。我们的客户不想让我们在他们的数据库中进行任何调用(甚至创建副本等)。到目前为止,我认为最好的解决方案是端点(让他们将数据推送到存储中),这样我们就可以使用它并继续所有的数据科学过程。我的云提供商是 Google Cloud,我的客户使用 MySQL 服务器。
我一直在网上阅读许多主题,并访问了以下链接:
Google Cloud Data Lifecycle - 对于批处理,它谈到了 Cloud Storage、Cloud Transfer Appliance、Transfer Appliance
签名 URL - 这些 URL 是有时间限制的资源,用于访问(例如,Google Cloud Storage)并将数据写入其中。
我的简单解决方案是用户签名 URL -> 云存储 -> 数据流 -> BigQuery。这是一个好方法吗?
总而言之,我正在寻求有关最佳实践的建议以及让用户在 GCP 中插入数据而不暴露他的数据或我的基础架构的可能方法。
禁忌:
- 客户端将定期发送数据(每天一次摄取)
- 数据是半结构化的(我将创建和内部管道进行转换)
- 预处理后,数据必须发送到 BigQuery