21

我需要我能找到的最详尽的英语单词列表,用于几种类型的语言处理操作,但我在互联网上找不到任何质量足够好的东西。

英语中有 1,000,000 个单词,包括外来词和/或技术词。

您能否建议这样一个可以从互联网上下载的可能有点分类的来源(或接近 50 万字)?您的语言处理应用程序使用什么输入?

4

6 回答 6

28

凯文的词表是我所知道的最好的词表。

如果您想了解名词、动词等、同义词等,WordNet会更好。

于 2009-01-16T14:08:04.453 回答
8

` “百万字”骗局滚滚而来,我明白了 ;-)

如何让你的单词列表更长:给定一个名词,添加以下任何一个:non-,pseudo-,semi-,-arific,-geek,...;比对动词

于 2009-02-22T21:37:22.683 回答
4

我为普渡大学做过关于受控/自然英语和语言领域知识处理的研究。

我会看一下尝试项目:http ://attempto.ifi.uzh.ch/site/description/这是一个帮助建立受控的自然英语的项目。

您可以在以下位置下载他们的整个单词词典:http ://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有大约 100,000 个自然英语单词。

您还可以为特定领域的单词提供自己的词典,这就是我们在研究中所做的。他们提供网络服务来解析和格式化自然英文文本。

于 2009-01-16T14:20:19.233 回答
3

谁告诉你有一百万字的?根据维基百科,牛津英语词典只有 600,000。OED 试图包含所有使用的技术和俚语术语。

于 2009-01-16T14:15:37.497 回答
2

直接尝试维基百科的摘录:http ://dbpedia.org

于 2012-06-11T14:40:51.567 回答
0

没有太多的基本词(根据this- oxford的说法是171k 。这是我记得在大学的CS课程中被告知的内容。但是如果包括所有形式的词-那么它会大大增加。

也就是说,为什么不自己做一个呢?获取 Wikipedia 转储并对其进行解析并创建一组您遇到的所有令牌。

期待拼写错误 - 就像所有众包一样会有错误。

于 2015-04-18T23:32:45.367 回答