database - 如何使用循环任务实现数据管道？

Question

我必须为我尝试创建的应用程序设置数据管道，但我不知道该怎么做。

我在数据库中有 2 个实体：A 和 B，每个实体 B 都属于一个实体 A。

每分钟，我都会获取许多 B 实体，但缺少一个字段（在每个 B 实体上）。因此，在保存 B 实体之前，我需要在每个实体上计算该字段。给定一个 B 实体和相应的 A 实体，我需要保存属于 A 实体的最后 20 个 B 实体（在数据库中，因此没有丢失的字段）来计算丢失的字段。

每分钟的伪代码是：

获取要保存的新 B 实体列表的 http 请求。
对于每个 B 实体：
- 读取 B 实体的 A 实体（B 实体有一个字段，其 id 为它们所属的 A 实体）
- 获取保存的 A 实体的最后 20 个 B 实体
- 计算缺失字段并保存 B 实体

数量级：每分钟 20k A 实体、3000 万 B 实体保存和 1k 新 B 实体（这 1k B 实体属于大约 300 个 A 实体）

我认为我可以实现一个缓存系统，为每个 A 实体存储最后 20 个保存的 B 实体，而不是每分钟查询数据库以获取为每个 A 实体保存的最后 20 个 B 实体。

所以我的第一个想法是：

使用缓存系统 ( https://dashbird.io/blog/leveraging-lambda-cache-for-serverless-cost-efficiency/ ) 实现 AWS lambda 函数，该系统每分钟执行一次描述的所有逻辑。
添加一个每分钟调用 lambda 函数的 CRON。
数据存储在 AWS 上的 sql 数据库 (mysql) 中。

由于这是我第一次必须设置数据管道，我注意到我的第一个想法是好的，我有多个问题：

你将如何实施它？
缓存是个好主意吗？只查询数据库更好吗？
AWS 是一个不错的选择吗？
- CRON 有 1 分钟的限制，所以我达到了 CRON 的限制......</li>
- 缓存的结构将是一个带有键的字典：实体 A id（20 个字符的字符串）值：20 个数字的列表（20k A 实体，因此 20k 键值对）。在 AWS lambda 函数上构建这样的数据缓存是否有意义？
您是否建议我使用数据管道框架或其他技术？

提前感谢您的反馈:)

score 0 · Accepted Answer

我认为通过创建来查询具有限制和顺序的 RDS 会更容易，并且比使用 lambda 进行缓存更容易。如果负载很大，您可以使用只读副本来处理读取。

关于 Lambda 的 cron 工作，是的，为什么不呢。确保你知道这个 lambda 平均运行多长时间。如果您有专门的容器设置，可能会更便宜、更高效。

不确定所有这些是否真的需要在数据管道中，因为这是一个相当简单的设置。

1 回答 1