假设您要采用如下所示的 CMU 语音数据集输入:
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S
(单词在左边,右边是一系列音素,关键在这里)
您想将其用作机器学习系统的训练数据,该系统将接受新单词并猜测它们在英语中的发音方式。
至少对我来说并不是那么明显,因为没有固定的字母标记大小可以映射到音素。我有一种感觉,与马尔可夫链有关的事情可能是正确的方法。
你会怎么做?