问题:
我有大约 20 个 ASCII 文本文件,每个文件的大小都小于10^9 字节。给出了另一个 ASCII 文本文件(比如 FOO)。程序是将 FOO 的内容与给定的 20 个文件进行战略匹配,并打印 CLOSEST 匹配文件的名称。FOO 的内容可能仅部分匹配。
由于文件太大,我想知道:
1.如何使用信息检索(因为我对IR不太了解)
2.我应该使用哪种数据结构来存储这些信息
3.实现它的最佳算法是什么。
我知道我问的太多了,但我真的被这个问题困住了,无法找到解决方法。任何帮助都将不胜感激。谢谢!