information-retrieval - 术语相关性算法

Question

对于作业，我必须建议一种算法来计算给定文档的两个术语之间的相关程度。我不知道从哪里开始创建这样的算法；。这都是在信息检索领域，我们目前正在研究二进制和向量空间模型等。

如果有人至少可以让我朝着正确的方向前进，那就太好了！或任何有帮助的链接。

score 0 · Accepted Answer

文本挖掘中的一个关键问题是提取术语之间的关系。Wordnet 等手工制作的词汇资源在涉及特殊文本语料库时存在局限性。已经提出了针对从大型语料库自动构建叙词表问题的分布式方法，利用了复杂的自然语言处理技术，这使得它们具有语言特定性和计算密集型。据推测，在许多应用中，没有必要确定术语关系的确切性质，但足以捕捉和利用术语的频繁共现。这样的应用就是标签推荐。

协作标记系统是社交数据存储库，用户在其中通过分配描述性关键字（标签）来管理 Web 资源。协作标记系统的一个重要元素是标记推荐器，它向发布资源的用户提出一组标记。在本次演讲中，我们探讨了三种标签来源的潜力：资源内容（包括元数据字段，如标题）、资源配置文件（所有标记资源的用户分配给资源的标签集）和用户配置文件（标记用户分配给她标记的所有资源）。基于内容的标签集在标签到标签和标题-词到标签图中使用相关标签来丰富，这些标签将词的共现捕获为标签和/或标题词。生成的标签集进一步丰富了以前用于描述相同资源（资源配置文件）的标签。基于资源的标签集根据用户个人资料标签进行检查 - 一个丰富但不精确的用户兴趣信息来源。结果是一组与资源和用户相关的标签。

（如果你把这个词逐字复制到你的报告中，教授一定会发现你是从一个简单的谷歌搜索中得到的，就像我一样。）

information-retrieval - 术语相关性算法

1 回答 1

Related

Reference