2

我找到了解释如何比较 2 个文档以生成“接近度”分数的算法。是否有一种已知的算法可用于读取中等数量的 HTML 文档(两位数到三位数)并将它们分组?理想情况下,不对源文档的每个可能排列使用 2 输入算法。

我猜谷歌新闻一定是在使用这样的东西。

只是为了澄清,这里有一个例子:

Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA:  30 documents
* CategoryB:  20 documents
* CategoryC:  5  documents
* Uncategorised: 45 documents
4

1 回答 1

1

您应该研究聚类分析领域的算法。您似乎正在寻找一种非常广泛的无监督学习方法,但如果您在搜索类别之前向算法添加一些额外的输入,则可以提高结果的质量。

您将需要想出一种方法来比较文档或至少列举相关特征(长度、单词频率等)。这些可以作为您正在使用的聚类算法的输入。例如,您可以定义以下特征:

  • 字数
  • 图像数量
  • 外部链接数
  • 与地理相关的单词数
  • 与生物学有关的单词数
  • 与经济相关的词数
  • 等等

您对想要的类别越具体,算法的性能就越好。上述特征将为您提供每个文档的数字向量:

(384 , 12,  8, ...,  0)
(1244, 39, 10, ..., 55)
(128 ,  2, 66, ..., 33)
...

聚类算法(例如k-means clustering)现在可以帮助您将每个文档分配给最可能的聚类。请注意,这只是一个示例。对于您的特定问题,为更具体的领域(例如医学文章)定义更具体的特征可能很有用。

于 2012-06-25T20:14:59.263 回答