我正在为一些英语文本生成一些统计数据,我想跳过无趣的单词,例如“a”和“the”。
- 我在哪里可以找到这些无趣单词的列表?
- 这些单词的列表是否与英语中最常用单词的列表相同?
更新:这些显然被称为“停用词”而不是“跳过词”。
我正在为一些英语文本生成一些统计数据,我想跳过无趣的单词,例如“a”和“the”。
更新:这些显然被称为“停用词”而不是“跳过词”。
放入谷歌的神奇词是“停用词”。这出现了一个看起来合理的列表。
MySQL 也有一个内置的停用词列表,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是停用词。
根据您使用的英语子域,您可能需要/希望编译自己的停用词列表。一些通用的停用词在域中可能是有意义的。例如,“are”这个词实际上可能是某个领域的缩写/首字母缩略词。相反,您可能希望根据您的应用程序忽略一些特定于域的单词,而这些单词在一般英语领域中您可能不想忽略。例如,如果您正在分析医院报告的语料库,您可能希望忽略诸如“历史”和“症状”之类的词,因为它们会在每个报告中找到并且可能没有用(从普通的倒排索引的角度来看)。
获取有关大型 txt 语料库中词频的统计信息。忽略所有频率>某个数字的单词。
我想我在不久前使用 lucene.net 构建搜索应用程序时使用了德语的停用词列表。该站点也包含一个英语列表,并且该站点上的列表显然也是 lucene 项目默认使用的列表。
通常,这些词会以最高频率出现在文档中。假设您有一个全局单词列表:
{ Word Count }
对于单词列表,如果您将单词从最高计数排序到最低计数,您将拥有一个图形(计数(y 轴)和单词(x 轴),即逆对数函数。所有停用词将是在左侧,“停用词”的停止点将位于最高一阶导数存在的位置。
此解决方案比字典尝试更好:
字典尝试更好: