0

我试图在两个句子之间找到一些相似性度量。我利用了两个词的个体语义相似性。但是字典中有很多单词是我从我的句子中提取出来的。我想从句子中删除一些我认为不能传达有关内容信息的单词。首先,我删除了字母较少的单词,但我认为这不合理,因为它也删除了一些信息丰富的单词。

看这里的一些句子的部分

"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."

如果我有一个包含这些单词的文本文件,我会将它们从我的字典中删除,只保留信息性单词。

是否有任何您知道的英语单词列表,以便我可以用来过滤我的字典?

4

2 回答 2

2

解决此类问题的一种方法是删除分布的头部和尾部。非常常见的词(即停用词)几乎不添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。您必须小心唯一性的阈值,这取决于您的语料库的来源和异质性:用户生成的输入往往包含比维基百科等精选来源的内容更多的独特拼写错误。

于 2012-12-19T22:27:43.127 回答
1

有可用的常见“停用词”列表,例如,这里

停用词也可能在某种程度上取决于域。例如,美国专利全文数据库显然认为“权利要求”和“实施方案”非常普遍,我怀疑这对于非专利特定文件是正确的。

于 2012-12-21T16:33:41.127 回答