5

我正在为网站的内容编制索引,并且我想仅基于 url 实现一些分类。

我想从导航页面告诉 appart 内容视图页面。“内容查看页面”是指通常可以查看产品或书面文章详细信息的网页。“导航页面”是指(通常)由指向内容页面或其他更具体列表页面的链接列表组成的页面。

尽管有些站点使用站点范围的密钥系统来映射其内容,但大多数站点都会一点一点地进行并确定其密钥映射的范围,因此这应该是可能的。

在实践中,我想要做的是从站点中获取 url 列表并按相似度对它们进行分组。我相信这可以通过机器学习来完成,但我不知道怎么做。机器学习似乎是一个广泛的话题,我应该特别开始阅读什么?哪些概念,哪些算法,哪些工具?

4

3 回答 3

3

如果你想自动发现这些组,我建议你自己找一个聚类算法的实现(K-Means可能是最流行的,你不要说你想用什么语言来做)。您知道有两个类别,因此允许您先验地指定类别数量的东西将使问题更容易。

之后,为您的网页定义一堆特征,并通过 k-means 运行它们以查看生成了哪些类型的组。调整你使用的功能,直到你得到看起来令人满意的东西。如果您可以访问网页本身,我强烈建议您使用在整个页面上定义的功能,而不仅仅是 URL。

于 2012-11-02T11:32:49.790 回答
2

您首先需要收集导航/内容页面的数据集并标记它们。在那之后,它非常直截了当。

您将使用什么语言?我建议你试试Weka,它是一个基于 java 的工具,你可以简单地按下一个按钮并从中获取 50 多种算法的性能度量。之后,您将知道哪个是最准确的并且可以部署它。

于 2012-11-01T18:32:51.597 回答
2

我觉得您正在尝试在HITS算法中对Authorityand进行分类。Hub

  • Hub是您的导航页面;
  • Authority是您的内容查看页面。

通过对每个网页进行链接分析,您应该能够通过对域中的所有网页执行 HITS 来找出页面的类型。如下图所示,左图显示了网页之间的链接关系。右图显示了运行 HITS 后相对于集线器/权限的评分。HITS 不需要任何标签即可启动。更新规则很简单:基本上只是一次更新权威分数,另一次更新中心分数。

在此处输入图像描述 在此处输入图像描述

是一个讨论pagerank / HITS的教程,我借用了上面的两个图表。

是 HITS 的扩展版本,用于结合 HITS 和信息检索方法(TF-IDF、向量空间模型等)。这看起来更有希望,但肯定需要更多的工作。我建议你从 naive HITS 开始,看看它有多好。最重要的是,尝试BHITS中提到的一些技巧来提高你的表现。

于 2012-11-01T23:02:01.503 回答