嗨,假设我有一个这样的制表符分隔文件(每个字段由制表符空格分隔):
Name ID Country GPA
Tom id1 USA 3.4
Jon id2 Canada
Amy UK 3.0
Kevin id4 Scotland
Kris 3.1
这里 name = 1.0 的密度是 100% ID 的密度是 0.6 是 60%(缺少 2 个字段) Country 的密度是 0.8 GPA 的密度也是 0.6
如何使用python为文件找到这个?此外,我需要一个高效且快速的算法,因为我需要对价值超过 40 GB 的数千个文件执行此操作。Map reduce 代码也有效。
提前致谢 :)