我正在使用 difflib SequenceMatcher(ratio() 方法)来定义文本文件之间的相似性。虽然 difflib 比较一小部分文本文件的速度相对较快,例如 10 个 70 kb 的文件平均相互比较(46 个比较)大约需要 80 秒。
这里的问题是我收集了 3000 个 txt 文件(平均 75 kb),对 SequenceMatcher 完成比较工作需要多少时间的原始估计是 80 天!
我尝试了“real_quick_ratio()”和“quick_ratio()”方法,但它们不符合我们的需要。
有什么方法可以加快比较过程?如果没有,有没有其他更快的方法来完成这样的任务?即使它不在 Python 中。