我有这个巨大的按字母排序的索引,我需要获取特定术语的行。逐行阅读文件并检查我是否得到了正确的术语对我来说似乎效率不高,因此索引的大小(我们索引了英语维基百科语料库)。
因此,我正在寻找一种在行上进行二进制搜索的方法。我使用 LineNumberReader 来有效地获取行数,但似乎没有有效的解决方案来从文件中获取第 n 行。
我想知道是否阅读行直到我在第 n 行,检查它是否是正确的术语并根据二进制搜索算法采取行动(可能再次阅读行,因为我需要我已经跳过的行)更有效然后只是逐行检查条款?
任何其他建议也非常欢迎!
请注意,我需要获取一组行,具体取决于要搜索的一组术语。