我有一个包含 160 万行数据的 CSV,大约 150MB,它包含产品数据。我有另一个包含 2000 行的 CSV,其中包含大 CSV 中的产品列表。它们通过唯一的 id 相互关联。这个想法是在 CSV 中添加 2000 行的产品数据。
databank.csv 有标题ID
, Product Name
, Description
, Price
. 有sm_list.csv
标题ID
。
结果是输出 csv 中的产品sm_list.csv
,相应的数据在databank.csv
... 2000 行长。
我的原始解决方案读取所有sm_list
, 并逐行读取数据库。它在从数据库读入的行中sm_list
搜索。ID
这导致 2000x160 万 = 32 亿次比较!
您能否提供一个基本的算法大纲以最有效的方式完成这项任务?