1

我正在做一个算法来分类页面的相关性,比如“电影”,尽可能使用所有元信息,但不包括正文的文本内容。

我想知道我可以使用什么来确定页面是否包含有关主题的一些信息。

目前,我给标题的重要性为 40%,域后的链接为 30%,域为 20%,元关键字为 10%,但我认为我可以使用更多的东西来获得更多精确的。我正在匹配一些带有权重的单词来计算页面的相关性。

关于我还可以使用什么来计算相关性的任何想法?我只想排除 HTML 本身内部的文本内容,但可以使用 HTML 结构。

4

1 回答 1

0

我想你应该考虑一下主菜单的链接,如果是子菜单的链接,那么就更简单了,LINKS。您还应该考虑元数据。但我仍然不确定你想要达到什么目的。

据我了解,您正在尝试为网页制作一些“相关性”公式。

于 2011-09-03T16:23:41.230 回答