我正在做一个算法来分类页面的相关性,比如“电影”,尽可能使用所有元信息,但不包括正文的文本内容。
我想知道我可以使用什么来确定页面是否包含有关主题的一些信息。
目前,我给标题的重要性为 40%,域后的链接为 30%,域为 20%,元关键字为 10%,但我认为我可以使用更多的东西来获得更多精确的。我正在匹配一些带有权重的单词来计算页面的相关性。
关于我还可以使用什么来计算相关性的任何想法?我只想排除 HTML 本身内部的文本内容,但可以使用 HTML 结构。
我正在做一个算法来分类页面的相关性,比如“电影”,尽可能使用所有元信息,但不包括正文的文本内容。
我想知道我可以使用什么来确定页面是否包含有关主题的一些信息。
目前,我给标题的重要性为 40%,域后的链接为 30%,域为 20%,元关键字为 10%,但我认为我可以使用更多的东西来获得更多精确的。我正在匹配一些带有权重的单词来计算页面的相关性。
关于我还可以使用什么来计算相关性的任何想法?我只想排除 HTML 本身内部的文本内容,但可以使用 HTML 结构。