我正在尝试根据标题和正文的内容查找类似的 HTML 页面。相似,我的意思是语义相似,即与相同的内容/主题/主题相关。
我有一个可靠的“验证器”方法来断言一对HTML 页面的语义接近性,即一次只为两个 HTML 页面工作。然而,该数据集包含大约 100 万个 HTML 页面,并且比较两个页面的所有可能组合是非常不可行的......
因此,我正在寻找一种相对快速但不完美的“分类器”来为基于对的验证器生成“候选者”列表。这样的分类器/过滤器会从数据集中生成一个 [相对较短的] HTML 页面列表,这些页面可能在语义上接近给定的 HTML 页面。然后,第一层过滤器的输出将成对地馈送到现有的验证器方法,以生成与参考页面有效相似的 HTML 页面子集。
就其精度与召回特性而言,第一层过滤器可能不完美,但当然,虽然它的精度差是可以接受的(即产生相对较多的误报),但它的召回率不应该太小,以免遗漏太多有效相似的页面。
选择这些候选人的最佳方式是什么?
背景信息:
为了支持现有的验证器逻辑,数据集中的每个 HTML 页面都经过预处理,将标题和正文标记为一元和二元。如果添加处理的计算成本与其为提高过滤器逻辑的有效性提供的支持相称,则欢迎提出额外预处理的建议。
虽然,虽然这可能对第一层过滤器的设计影响不大,但“验证器”的工作原理如下:
对于一对 HTML 页面,我正在生成与它们对应的特征向量并将其提供给分类器,所以以获取它们是否相似。
我使用 python 进行编码,使用 SVM 作为分类器。