python-3.x - 将 .wav 音频文件设置复制到新的 .wav 文件

Question

目前，我正在使用一个语音到文本的翻译模型，该模型采用 .wav 文件并将音频中的可听语音转换为文本转录本。该模型之前曾用于直接录制的 .wav 音频录音。但是现在我正在尝试对视频中最初出现的音频做同样的事情。

步骤如下：

通过 ffmpeg 从流 url 中检索视频文件
从视频中剥离 .aac 音频
将 .aac 音频转换为 .wav
将 .wav 保存到 s3 以供以后使用

下面列出了我使用的 ffmpeg 命令以供参考：

  rm /tmp/jonas/*
  ffmpeg -i {stream_url} -c copy -bsf:a aac_adtstoasc /tmp/jonas/{filename}.aac
  ffmpeg -i /tmp/jonas/{filename}.aac /tmp/jonas/{filename}.wav
  aws s3 cp /tmp/jonas/{filename}.wav {s3_audio_save_location}

现在的问题是我的语音到文本模型不再适用于该音频。我使用 sox 转换音频，但 sox 似乎没有抓取音频。同样没有袜子，模型也不起作用。这使我相信 .wav 音频格式存在差异，因此我想知道如何使用与有效的 .wav 相同的设置格式化 .wav 或 找到比较 .wav 的方法音频格式并通过 ffmpeg 手动将新的 .wav 设置为正确的格式

我尝试使用 PyPy exiftool 并找到了这两个文件的元数据：

工作 .wav 文件的元数据是

不起作用的 .wav 文件的元数据是

因此可以看出，工作的 .wav 文件有一些不同的设置，我想在第二个 .wav 文件中模仿这些设置，大概这会使我的模型再次工作:)

亲切的问候，乔纳斯

score 0 · Accepted Answer

我找到了答案，需要将 .aac 到 .wavs 的转换调整为以下行：

ffmpeg -i /tmp/jonas/{filename}.aac -ac 1 -ar 8000 /tmp/jonas/{filename}.wav

.aac 直接从视频中复制。-ac 调整通道的数量。-ac 调整采样率

python-3.x - 将 .wav 音频文件设置复制到新的 .wav 文件

1 回答 1

Related

Reference