我在 ~10MB .csv 文件中保存了大约 100GB 的数据。如何优化对该数据的数千次查询的查找速度?具体来说,我不知道要考虑哪些技术或如何估计相对性能。
每个文件对于一个日期都是唯一的,并且包含多个人的数据,例如:
...
2005-07-03, "Daffy Duck", ...
2005-07-03, "Daffy Duck", ...
2005-07-03, "Mickey Mouse", ...
2005-07-03, "Mickey Mouse", ...
...
我想为数千个日期/名称对提取与给定日期/名称对应的所有信息。等效的 SQL 查询将是SELECT * FROM myDB WHERE Date='2005-07-03' AND Name='Mickey Mouse'
.
目前我还没有将数据加载到数据库中。为了执行我的“查询”,我找到了适当的日期文件并按我正在寻找的名称过滤这些行。将数据存储在关系数据库、noSQL 数据库或任何其他方式中是否会获得性能改进?如果是这样,为什么和多少?