0

我得到了一组网页,我需要构建一个页面推荐器。无论向应用程序提供哪个 URL,应用程序都应该能够从给定池中找到与 URL 上的页面相似的页面。


我尝试寻找不同的方法来做到这一点。word2vec 的使用让我很感兴趣。我计划爬取所有给定的网页集,并根据该页面中的内容为该页面生成标签。从这些标签中,我希望使用 word2vec 来计算页面的向量值并存储它。搜索时,我会以类似的方式计算给定页面的向量以查找类似的值。这是使用 word2vec 的正确方法吗?应该使用什么训练向量?还有其他更好的方法来完成这项任务吗?或者只是纯文本匹配会是更好的选择?

4

1 回答 1

0

我建议使用现有的 IR 开源来处理您的文档,即为您抓取的网页编制索引并查询以获取结果。您可以尝试使用弹性索引所有网页来索引文档,并使用更多类似此查询的查询,来自弹性文档:

More Like This Query (MLT Query) 查找与给定文档集“相似”的文档

于 2015-05-07T07:29:21.013 回答