我们有一些需要被配音为各种语言的屏幕截图,我们有目标语言的文本脚本,如下所示:
开始时间音频旁白 0:0 blah nao lorep iposm... 1:20 xao dok dkjv dwv.... ..
我们可以分别记录上述每个单元,然后按照上述脚本中的说明在适当的开始时间将其对齐。
例子:
输入:
输入N个定时值:0:0,1:20 ... 然后输入N个录音
输出:
与上述时间一致的录音。系统应单独检测上溢,而下溢则由静默填充。
是否有任何独立于平台的音频 apis \ 软件或最好在 python 中的代码片段,允许我们根据提供的时间对齐这些音频单元?