我们可以在不使用 wav 文件的情况下使用 mp3 文件进行语音识别过程吗?或者我们可以从 mp3 生成一个 wav 文件,然后在不严重影响准确性的情况下进行语音识别?问题是我需要在我的应用程序中最小化通过网络传输的负载。转换中丢失的信息是否会成为影响准确性的重要因素?
问问题
1325 次
1 回答
1
我们可以在不使用 wav 文件的情况下使用 mp3 文件进行语音识别过程吗?
不是直接的。为了能够识别 mp3 流,您需要使用 java 库来读取 mp3 并转换为 pcm 流(tritonus-mp3,lameonj)。您还可以调用 ffmpeg 作为单独的进程进行解码。
或者我们可以从 mp3 生成一个 wav 文件,然后在不严重影响准确性的情况下进行语音识别?
无论您在哪里解码 mp3 文件,这两种情况下的准确性都会受到影响。
问题是我需要在我的应用程序中最小化通过网络传输的负载。转换中丢失的信息是否会成为影响准确性的重要因素?
最好使用像flac这样的无损编解码器进行传输。mp3 转换会降低 ASR 的准确性。另一种方法是在客户端计算特征并将它们传输到服务器。
于 2012-01-28T19:29:57.617 回答