我试图在两个句子之间找到一些相似性度量。我利用了两个词的个体语义相似性。但是字典中有很多单词是我从我的句子中提取出来的。我想从句子中删除一些我认为不能传达有关内容信息的单词。首先,我删除了字母较少的单词,但我认为这不合理,因为它也删除了一些信息丰富的单词。
看这里的一些句子的部分
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
如果我有一个包含这些单词的文本文件,我会将它们从我的字典中删除,只保留信息性单词。
是否有任何您知道的英语单词列表,以便我可以用来过滤我的字典?