我正在尝试处理具有 ~730 亿行的 CSV 文件,
我将处理后的行存储到 python collections.defaultdict 中,将字符串作为键和元组作为值,但是将此数据结构存储到字典中需要 ~100 秒存储 50K 行。
我正在以 50K 行的块处理 CSV 文件,以确保系统不会出现内存不足或避免磁盘溢出 I/O 交换操作。
稍后我将这些处理过的 CSV 文件加载到表中并进行完全外部连接以获得组合结果。
CSV ID 的示例 ROW,值:
"10203","http://google.com/goo.gl?key='universe'&value='somedata'"
数据结构:
dt = {'goog': [(10203, 1), ...}
基本上,我正在尝试实现一种用于全文搜索功能的算法——为此,我需要在 4 个字符的部分及其关联的 ID 中保持值的位置。