考虑一下人们在 google 中搜索过的 100 亿个单词。对应于每个单词,您拥有所有文档 ID 的排序列表。该列表如下所示:
[Word 1]->[doc_i1,doc_j1,.....]
[Word 2]->[doc_i2,doc_j2,.....]
...
...
...
[Word N]->[doc_in,doc_jn,.....]
我正在寻找一种算法来找到 100 个稀有词对。稀有词对是在一个文档中同时出现(不一定连续)的一对词。
如果可能的话,我正在寻找比 O(n^2) 更好的东西。