1

如何通过文本文档链接它们之间有某种关系的词条(关键词实体) 。例如,当您搜索一个人时,谷歌会显示与该人相关的其他人的推荐

在此处输入图像描述

在这张照片中,它计算出了配偶总统候选人平等称号。

我正在使用频率计数技术。在同一个文档中出现的两个术语越多,它们产生某种关系的机会就越大。但这也链接了文本文档中不相关的术语,如页面标记、动词和页面引用。

我应该如何改进它,还有其他简单但可靠的技术吗?

4

1 回答 1

1

你应该看看一些技巧

1.)停用词过滤:在文本挖掘中很常见两个过滤词,它们通常不是很重要,因为它们是两个频繁出现的。像the, a,is等等。有预定义的字典。

2.) TF/IDF : TF/IDF 对单词重新加权它们分隔文档的程度。

3.)命名实体识别:对于您手头的任务,只关注名称可能就足够了。命名实体识别可以从文档中提取名称

4.)线性狄利克雷分配:LDA 在文档中找到概念。概念是一组经常一起出现的词。

于 2016-01-13T19:32:52.100 回答