我想知道定义字典来计算特定网站相关性的最佳方法是什么。至少带有单词的字典似乎是衡量通过链接找到的新网站的相关性的重要方法(例如,如果一个网站被链接到,但它不包含任何关于足球的词,它可能与我的足球爬虫无关)。
我得出了以下想法,但它们都有很大的缺点:
- 手工写字典 -> 你可能会忘记很多单词,而且非常耗时
- 将第一个网站中最重要的单词作为字典 -> 很多单词可能会丢失
- 将所有网站上最重要的单词作为字典中的条目,并通过相关性对它们进行加权(例如,仅相关 0.4 的网站不会像相关 0.8 的网站那样对字典产生如此大的影响)-> 看起来相当复杂并可能导致意想不到的结果
最后一种方法对我来说似乎是最好的,但也许有更好更常用的方法?