speech-recognition - 如何为语音识别准备数据集

Question

我需要训练一个双向 LSTM 模型来识别离散语音（从 0 到 9 的单个数字）我已经录制了 100 个发言者的语音。接下来我该怎么办？（假设我将它们拆分为单独的 .wav 文件，每个文件包含一个数字）我将使用 mfcc 作为网络的功能。

此外，如果我要使用支持 CTC（连接主义时间分类）的库，我想知道数据集的区别

score 4 · Accepted Answer

您可以使用此处提供的答案/指导

根据您用于创建 LSTM（pybrain、theano、keras）的库，您可以查看它们的文档。

我建议为此使用 Theano(Binary LSTM link ) 或 Keras( Tutorial)，因为它们很容易理解并且有据可查。

希望这可以帮助。

1 回答 1