nlp - Elman SRN 的单词/音素语料库（英语）

Question

我正在写一个 Elman 简单循环网络。我想给它一个单词序列，每个单词都是一个音素序列，我想要大量的训练和测试数据。

所以，我需要的是一个英语单词的语料库，连同它们组成的音素，写成 ARPAbet 或 SAMPA 之类的东西。英式英语会很好，但只要我知道我在处理什么就不是必需的。有什么建议么？

我目前没有时间也没有兴趣编写一些从口语或书面数据中派生出一个单词的音素的东西，所以请不要提出这个建议。

注意：我知道CMU Pronouncing Dictionary，但它声称它仅基于 ARPABet 符号集 - 任何人都知道是否真的有任何差异，如果有，它们是什么？（如果没有，那么我可以使用它......）

编辑：CMUPD 0.7a符号列表- 元音可能有词汇重音，并且有变体（ARPABET 标准符号）表明这一点。

score 3 · Accepted Answer

CMUdict 应该没问题。“Arpabet 符号集”仅表示 Arpabet。如果有任何细微差别，应在 CMUdict 文档中进行解释。

如果您需要比将单个单词的字典发音串在一起更接近现实生活的数据，请查找语音转录的语料库，例如 TIMIT。

1 回答 1