mp3 - 使用 Sphinx 4 进行 mp3 识别

Question

我们可以在不使用 wav 文件的情况下使用 mp3 文件进行语音识别过程吗？或者我们可以从 mp3 生成一个 wav 文件，然后在不严重影响准确性的情况下进行语音识别？问题是我需要在我的应用程序中最小化通过网络传输的负载。转换中丢失的信息是否会成为影响准确性的重要因素？

score 1 · Accepted Answer

我们可以在不使用 wav 文件的情况下使用 mp3 文件进行语音识别过程吗？

不是直接的。为了能够识别 mp3 流，您需要使用 java 库来读取 mp3 并转换为 pcm 流（tritonus-mp3，lameonj）。您还可以调用 ffmpeg 作为单独的进程进行解码。

或者我们可以从 mp3 生成一个 wav 文件，然后在不严重影响准确性的情况下进行语音识别？

无论您在哪里解码 mp3 文件，这两种情况下的准确性都会受到影响。

问题是我需要在我的应用程序中最小化通过网络传输的负载。转换中丢失的信息是否会成为影响准确性的重要因素？

最好使用像flac这样的无损编解码器进行传输。mp3 转换会降低 ASR 的准确性。另一种方法是在客户端计算特征并将它们传输到服务器。

1 回答 1