我得到了一组网页,我需要构建一个页面推荐器。无论向应用程序提供哪个 URL,应用程序都应该能够从给定池中找到与 URL 上的页面相似的页面。
我尝试寻找不同的方法来做到这一点。word2vec 的使用让我很感兴趣。我计划爬取所有给定的网页集,并根据该页面中的内容为该页面生成标签。从这些标签中,我希望使用 word2vec 来计算页面的向量值并存储它。搜索时,我会以类似的方式计算给定页面的向量以查找类似的值。这是使用 word2vec 的正确方法吗?应该使用什么训练向量?还有其他更好的方法来完成这项任务吗?或者只是纯文本匹配会是更好的选择?