假设,我正在访问一个大学网页。那里有很多老师的简介。尽管这些页面在语法上不相关,但在语义上是相关的。我如何衡量这种类型的关系?实际上我应该关注哪个参数来找到关系?
问问题
84 次
2 回答
0
这篇SO 帖子回答了如何计算短语之间的语义相似度。在您的情况下,您只需将不同的页面表示为文档并遵循相同的方法。
在您的情况下,您的算法可以利用更多信息,例如页面或出版物之间的链接(如果是研究人员)。我希望链接有点帮助...
于 2013-05-02T09:12:41.883 回答
0
这是一个简单但非常好的算法:
当然,每位教师的页面和链接的页面都包含在语义上表征该教授的文本。假设您创建了一组由教授页面和链接页面上的文本连接组成的单词(您可以继续连接文本继续跟随链接直到任意深度)。
现在,您可以根据使用向量空间模型提取的信息对教授进行聚类:每个教授都由一个向量表示,其分量是提取的页面中包含的单词和值相关的词频。余弦相似度将完成剩下的工作。
于 2013-09-05T23:07:37.203 回答