我一直在玩 sox 并使用trim
命令将整个音频分成 n 部分(每个部分的长度固定)应该相当简单。
但是,当我打算拆分口语录音时,可能会发生简单的拆分会在单词中间拆分。
有没有办法防止这种情况并确保部分包含“整个单词”?
我一直在玩 sox 并使用trim
命令将整个音频分成 n 部分(每个部分的长度固定)应该相当简单。
但是,当我打算拆分口语录音时,可能会发生简单的拆分会在单词中间拆分。
有没有办法防止这种情况并确保部分包含“整个单词”?
看看sox 网页上的sox 静音命令。
sox original.wav new.wav silence 1 0.5 2% 1 2.0 2% : newfile : restart
original.wav - 要拼接的音频文件。
new.wav - 将是新音频文件的名称,每个切片都附加数字(new1.wav、new2.wav、new3.wav...)。
沉默- 效果的名称。
1 0.5 2% - above_periods、持续时间、阈值。
1 2.0 2% - 低于周期、持续时间、阈值。