0

对于作业,我必须建议一种算法来计算给定文档的两个术语之间的相关程度。我不知道从哪里开始创建这样的算法;。这都是在信息检索领域,我们目前正在研究二进制和向量空间模型等。

如果有人至少可以让我朝着正确的方向前进,那就太好了!或任何有帮助的链接。

4

1 回答 1

0

文本挖掘中的一个关键问题是提取术语之间的关系。Wordnet 等手工制作的词汇资源在涉及特殊文本语料库时存在局限性。已经提出了针对从大型语料库自动构建叙词表问题的分布式方法,利用了复杂的自然语言处理技术,这使得它们具有语言特定性和计算密集型。据推测,在许多应用中,没有必要确定术语关系的确切性质,但足以捕捉和利用术语的频繁共现。这样的应用就是标签推荐。

协作标记系统是社交数据存储库,用户在其中通过分配描述性关键字(标签)来管理 Web 资源。协作标记系统的一个重要元素是标记推荐器,它向发布资源的用户提出一组标记。在本次演讲中,我们探讨了三种标签来源的潜力:资源内容(包括元数据字段,如标题)、资源配置文件(所有标记资源的用户分配给资源的标签集)和用户配置文件(标记用户分配给她标记的所有资源)。基于内容的标签集在标签到标签和标题-词到标签图中使用相关标签来丰富,这些标签将词的共现捕获为标签和/或标题词。生成的标签集进一步丰富了以前用于描述相同资源(资源配置文件)的标签。基于资源的标签集根据用户个人资料标签进行检查 - 一个丰富但不精确的用户兴趣信息来源。结果是一组与资源和用户相关的标签。

(如果你把这个词逐字复制到你的报告中,教授一定会发现你是从一个简单的谷歌搜索中得到的,就像我一样。)

于 2013-10-05T11:50:54.467 回答