我找到了解释如何比较 2 个文档以生成“接近度”分数的算法。是否有一种已知的算法可用于读取中等数量的 HTML 文档(两位数到三位数)并将它们分组?理想情况下,不对源文档的每个可能排列使用 2 输入算法。
我猜谷歌新闻一定是在使用这样的东西。
只是为了澄清,这里有一个例子:
Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA: 30 documents
* CategoryB: 20 documents
* CategoryC: 5 documents
* Uncategorised: 45 documents