algorithm - 将任意数量的 HTML 文档分类为主题的算法

Question

我找到了解释如何比较 2 个文档以生成“接近度”分数的算法。是否有一种已知的算法可用于读取中等数量的 HTML 文档（两位数到三位数）并将它们分组？理想情况下，不对源文档的每个可能排列使用 2 输入算法。

我猜谷歌新闻一定是在使用这样的东西。

只是为了澄清，这里有一个例子：

Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA:  30 documents
* CategoryB:  20 documents
* CategoryC:  5  documents
* Uncategorised: 45 documents

score 1 · Accepted Answer

您应该研究聚类分析领域的算法。您似乎正在寻找一种非常广泛的无监督学习方法，但如果您在搜索类别之前向算法添加一些额外的输入，则可以提高结果的质量。

您将需要想出一种方法来比较文档或至少列举相关特征（长度、单词频率等）。这些可以作为您正在使用的聚类算法的输入。例如，您可以定义以下特征：

字数
图像数量
外部链接数
与地理相关的单词数
与生物学有关的单词数
与经济相关的词数
等等

您对想要的类别越具体，算法的性能就越好。上述特征将为您提供每个文档的数字向量：

(384 , 12,  8, ...,  0)
(1244, 39, 10, ..., 55)
(128 ,  2, 66, ..., 33)
...

聚类算法（例如k-means clustering）现在可以帮助您将每个文档分配给最可能的聚类。请注意，这只是一个示例。对于您的特定问题，为更具体的领域（例如医学文章）定义更具体的特征可能很有用。

algorithm - 将任意数量的 HTML 文档分类为主题的算法

1 回答 1

Related

Reference