url - 如何使用机器学习对网址进行分类？

Question

我正在为网站的内容编制索引，并且我想仅基于 url 实现一些分类。

我想从导航页面告诉 appart 内容视图页面。“内容查看页面”是指通常可以查看产品或书面文章详细信息的网页。“导航页面”是指（通常）由指向内容页面或其他更具体列表页面的链接列表组成的页面。

尽管有些站点使用站点范围的密钥系统来映射其内容，但大多数站点都会一点一点地进行并确定其密钥映射的范围，因此这应该是可能的。

在实践中，我想要做的是从站点中获取 url 列表并按相似度对它们进行分组。我相信这可以通过机器学习来完成，但我不知道怎么做。机器学习似乎是一个广泛的话题，我应该特别开始阅读什么？哪些概念，哪些算法，哪些工具？

score 3 · Accepted Answer

如果你想自动发现这些组，我建议你自己找一个聚类算法的实现（K-Means可能是最流行的，你不要说你想用什么语言来做）。您知道有两个类别，因此允许您先验地指定类别数量的东西将使问题更容易。

之后，为您的网页定义一堆特征，并通过 k-means 运行它们以查看生成了哪些类型的组。调整你使用的功能，直到你得到看起来令人满意的东西。如果您可以访问网页本身，我强烈建议您使用在整个页面上定义的功能，而不仅仅是 URL。

score 2 · Accepted Answer

您首先需要收集导航/内容页面的数据集并标记它们。在那之后，它非常直截了当。

您将使用什么语言？我建议你试试Weka，它是一个基于 java 的工具，你可以简单地按下一个按钮并从中获取 50 多种算法的性能度量。之后，您将知道哪个是最准确的并且可以部署它。

score 2 · Accepted Answer

我觉得您正在尝试在HITS算法中对Authorityand进行分类。Hub

通过对每个网页进行链接分析，您应该能够通过对域中的所有网页执行 HITS 来找出页面的类型。如下图所示，左图显示了网页之间的链接关系。右图显示了运行 HITS 后相对于集线器/权限的评分。HITS 不需要任何标签即可启动。更新规则很简单：基本上只是一次更新权威分数，另一次更新中心分数。

在此处输入图像描述

这是一个讨论pagerank / HITS的教程，我借用了上面的两个图表。

这是 HITS 的扩展版本，用于结合 HITS 和信息检索方法（TF-IDF、向量空间模型等）。这看起来更有希望，但肯定需要更多的工作。我建议你从 naive HITS 开始，看看它有多好。最重要的是，尝试BHITS中提到的一些技巧来提高你的表现。

3 回答 3