machine-learning - 机器学习挑战：学习英语发音

Question

假设您要采用如下所示的 CMU 语音数据集输入：

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

（单词在左边，右边是一系列音素，关键在这里）

您想将其用作机器学习系统的训练数据，该系统将接受新单词并猜测它们在英语中的发音方式。

至少对我来说并不是那么明显，因为没有固定的字母标记大小可以映射到音素。我有一种感觉，与马尔可夫链有关的事情可能是正确的方法。

你会怎么做？

score 6 · Accepted Answer

该问题称为字素到音素的转换，是自然语言处理的一个子问题。谷歌提出了一些论文。

score 2 · Accepted Answer

不完全是我的领域，但可能建立一个具有多层的神经网络 - 较早的层猜测单词分成连续的音节，后面的层猜测所述音节的发音。

对于数字数据，建立一个 ANFIS 学习神经网络相当简单，对于文字/语音数据，任务无疑要复杂几个数量级。

machine-learning - 机器学习挑战：学习英语发音

2 回答 2

Related

Reference