我想得到关于使用 No-SQL 数据存储来满足我的特定要求的建议。
让我解释一下: 我必须处理五个 csv 文件。每个 csv 包含 500 万行,并且每个 csv 中都显示了公共 id 字段。所以,我需要通过迭代 500 万行来合并所有 csv。所以,我使用 python 字典来合并基于公共 id 字段的所有文件。但这里的瓶颈是你不能用 python-dictionary 将 500 万个键存储在内存中(< 1gig)。所以,我决定使用No-Sql。我认为处理500万键值存储可能会有所帮助。但我对此没有明确的想法。
无论如何,我们不能减少迭代,因为我们有五个 csv,每个都必须迭代以更新值。
是否有一个简单的步骤?如果这是这种方式,你能给我 No-Sql 数据存储来处理键值对吗?
注意:我们也有列表类型的值。