我们有一个移动应用程序,用户可以在其中写一些相当私人的东西。
如果他们同意,我们希望以完全匿名的方式存储这些著作(几句话)。
我们有一个 IA 可以帮助用户纠正写作。因此,我们还需要在用户更正之前和之后存储每个句子的版本。
我们可以存储句子并具有这样的结构:
- 当前写入会话 UUID(不可与用户链接)
- 句子
- 模型预测(良好/待纠正)
- 是用户后来更正了还是用户保留了它?
所有这些句子都需要在发送到模型训练数据之前进行人工审核和标记。
分析将在 Jupyter Notebooks 上进行。它可以在本地计算机上完成。
我们将分块进行分析。每个月每个示例。然后,我们提取一些关于当前训练集似乎是新的数据,将其发送给将手动标记它的专家。
我们预计每月最多有几十万个句子。
我有几个想法来存储它,但我远没有足够的知识来理解所有的利弊。
- 在 S3 上存储 CSV 文件
- 将其存储为 RDS 中的 SQL 表
- 使用按需模式将其存储在 Amazon DynamoDB 中。
- 将其存储为 Amazon CloudWatch Logs(如果可能?)
- 将其作为 TimeSerie 存储在 Amazon TimeStream 中
直观地说,我会使用 RDS,因为它是普通的、经典的 SQL。但是我怀疑所有其他解决方案都会便宜得多。
您对此用例有什么见解或建议吗?
问候