从本质上讲,如果我有一个有人在说话的音频文件,我可以用什么来将音频与发音相似的英语单词相匹配。
例如,如果说西班牙语的人说:
Hola, me llamo Bob y me gusta ir a la biblioteca.
该程序将输出类似于:
Hole ahh may llama bob, E may goo star ear alla bible oh tech ah
正如你从我的非常糟糕的例子中看到的那样,它不需要接近完美,它只需要在语音上相似。我更喜欢与 python 一起工作的东西,但在这一点上,一切都会好起来的。