web-crawler - 主题相关爬虫的字典是如何定义的？

Question

我想知道定义字典来计算特定网站相关性的最佳方法是什么。至少带有单词的字典似乎是衡量通过链接找到的新网站的相关性的重要方法（例如，如果一个网站被链接到，但它不包含任何关于足球的词，它可能与我的足球爬虫无关）。

我得出了以下想法，但它们都有很大的缺点：

手工写字典 -> 你可能会忘记很多单词，而且非常耗时
将第一个网站中最重要的单词作为字典 -> 很多单词可能会丢失
将所有网站上最重要的单词作为字典中的条目，并通过相关性对它们进行加权（例如，仅相关 0.4 的网站不会像相关 0.8 的网站那样对字典产生如此大的影响）-> 看起来相当复杂并可能导致意想不到的结果

最后一种方法对我来说似乎是最好的，但也许有更好更常用的方法？

score 1 · Accepted Answer

我建议您从已知站点列表中构建常用词词典。假设您有 100 个网站，并且您知道它们都在谈论足球。您可以构建内容的 unigram 和 bigram（或 n-gram）映射，并将其用作基线，您可以根据该基线测量与您所做的每个新观察有关的某种类型的“偏差”。请注意，您必须删除常见的停用词才能消除不相关的词；英文有不少，这里有一个列表：http ://www.ranks.nl/resources/stopwords.html

N-gram 是单词或单词组合的频率计数。Unigrams 创建一个映射，其中键是单词，值是每个单词的出现次数。Bigrams 通常是通过组合两个连续的单词并将它们用作键来构造的，对于 trigrams 和 n-grams 以此类推。

您可以从已知站点中获取前 n-gram，并将它们与您当前正在评估的站点的前 n-gram 进行比较。它们越相似，该站点就越有可能具有相同的主题。

web-crawler - 主题相关爬虫的字典是如何定义的？

1 回答 1

Related

Reference