问题是我想用 C# 语言获取音频语音的音素。假设您有一个像“x.wav”这样的音频文件,上面写着“你好,亲爱的 Shamim”。我想提取语音的所有音素及其相对时间。如下图所示:
我使用System.Speech
了库(recognition
和synthesis
命名空间),但我没有找到我想要的。现在不要弄错了!我不想要句子“hello Dear Shamim”的音素,我想从说话的未知音频输入和英语句子中提取音素。我试过System.Speech.Recognition
了,但它试图从音频文件中提取单词,而不是音素!正如您可能猜到的那样,这些词有 30% 是错误的!;)