-1

我们可以在语音到文本 Watson API 中使用 MP3 音频文件吗?

语音转文本 Watson API 有哪些流行的不受支持的格式?

4

3 回答 3

0

不支持 MP3: Watson Speech to Text 音频格式

于 2017-04-26T18:06:13.350 回答
0

我建议你使用 WAV 格式,在这种情况下:流行格式。视情况而定。

如果你真的需要使用MP3,你可以简单地MP3 转换为 WAV。

但是,Speech to Text 支持的格式是:

  • audio/flac: 免费无损音频编解码器 ( FLAC ),一种无损压缩音频编码格式。有关更多信息,请参阅 en.wikipedia.org/wiki/FLAC。

  • audio/l16: 线性 16 位脉冲编码调制 ( PCM ),一种未压缩的音频数据格式。使用此媒体类型传递原始 PCM 文件。请注意,线性 PCM 音频也可以驻留在容器波形音频文件格式 (WAV) 文件中。有关详细信息,请参阅 Internet 工程任务组 (IETF) 征求意见 (RFC) 2586 和 en.wikipedia.org/wiki/Pulse-code_modulation。

  • audio/wav: 波形音频文件格式 ( WAV ),由 Microsoft® 和 IBM 创建的标准。WAV 文件是一个容器,通常用于未压缩的音频比特流,但也可以包含压缩的音频。有关详细信息,请参阅 en.wikipedia.org/wiki/WAV。该服务支持使用任何编码的 WAV 文件。它接受最多九个通道的音频(由于 FFmpeg 的限制)。

  • 音频/ogg/音频/ogg;编解码器=作品/音频/ogg;codecs=vorbis:Ogg 是由 Xiph.org 基金会维护的免费、开放的容器格式;更多信息,请参见 www.xiph.org/ogg/。两种编解码器都是免费、开放、有损的音频压缩格式。Opus 是首选的编解码器。如果您省略编解码器,服务会自动从输入音频中检测到它。

  • audio/webm/ audio/webm;codecs=opus/audio/webm;codecs=vorbis:Web Media ( WebM ) 是一种开放的媒体文件格式;有关详细信息,请参阅 webmproject.org。WebM 支持使用 Opus 和 Vorbis 音频编解码器压缩的音频流;Opus 是首选的编解码器。如果您省略编解码器,服务会自动从输入音频中检测到它。用于显示如何在 Chrome 浏览器中从麦克风捕获音频并将其编码为 WebM 数据流的 JavaScript 代码。

但是,您可以在Speech to Text官方文档中看到所有具有更多详细信息的格式。我建议您编辑更多细节并阅读文档,通常,IBM 的文档非常客观和完整。

于 2017-04-26T19:27:44.393 回答
0

不要为语音到文本的转换选择特定的音频格式而苦恼,大多数手动语音到文本或转录服务都接受所有可用的格式。当我们使用自动语音转文本服务时,我总是更喜欢 wav 而不是 mp3,因为它包含高位音频数据而不会损失音频质量并被大多数语音引擎接受。以下是任何转录公司支持的格式列表:https ://www.transcriptionwave.com/format.html

于 2017-10-08T06:11:19.803 回答