38

我想以结构化格式(例如 TXT、XML 或 SQL)下载英语词典——不仅仅是一个单词列表。

具体来说,我需要拼音发音词性(不需要定义)。

令人惊讶的是,我在任何地方都无法在网上找到这个。维基词典可供下载,但它只是 MediaWiki 文章本身。抓取所有文章并提取语音和词性将是一项巨大的工作。

这在任何地方都可用吗?我不介意付钱。

编辑:有几个人问我想做什么。我的迫切需要只是好奇,例如“最常见的两音节动词是什么?”。最终,我希望能成为一个工具,帮助您找到可用的域名,并通过将正确的词性与语音匹配的奖励积分配对来实现。

注意:交叉发布在英语语言和用法上。

4

5 回答 5

17

访问http://www.speech.cs.cmu.edu/cgi-bin/cmudict ,您将在https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk找到发音词典的下载页面/cmudict/

目前最新版本是 cmudict.0.7a。

这就是我目前用来为http://www.haikuvillage.com实现音节计数器的方法。它是用 Ruby 编写的,如果有帮助,我很乐意为您开源它。

于 2010-09-30T08:11:13.427 回答
8

高度结构化格式的公共领域语音词典的部分内容:http: //icon.shef.ac.uk/Moby/mpos.html

每行是一个条目,用×分隔,左边是单词值,右边是词性值(动词等)。简单的文本文件。

于 2013-08-07T16:41:26.670 回答
6

Wordnet 是我所知道的最好的词典之一。也许你会在那里找到一些东西: http ://wordnet.princeton.edu/wordnet/related-projects/

于 2010-09-29T14:14:37.420 回答
2

Portman,当我使用DevExpress 的 SpellChecker 工具时,我知道存在OpenOffice 词典,我很确定它们具有明确定义的数据结构。我建议您将它与任何免费/付费的文本转语音工具结合使用。

希望有帮助,

于 2010-09-25T16:20:03.183 回答
1

这不是您问题的直接答案,但 Double Metaphone 算法非常擅长为搜索引擎应用程序服务器(如 Solr 等)查找单词或短语匹配。

我无法说出您的预期用途是什么,所以我无法确定我的建议是否有用。如果它接近您的预期用途,关于 Double Metaphone 的 Wikipedia 页面列出了大约十几个可能值得探索的实现。

http://en.wikipedia.org/wiki/Double_Metaphone

于 2010-09-27T18:57:02.810 回答