0

当我将其设置为转录音频文件时,如何在 Sphinx 4 中获取时间索引(或帧号)?

我正在使用的代码如下所示:

audioURL = ...
AudioFileDataSource dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
dataSource.setAudioFile(audioURL, null);

Result result;
while ((result = Recognizer.recognize()) != null) {
  Token token = result.getBestToken();
  //DoubleData data = (DoubleData) token.getData();
  //long frameNum = data.getFirstSampleNumber(); // data seem always null
  String resultText = token.getWordPath(false, false);
  ...
}

我试图从结果/令牌对象中获取转录时间,例如类似于字幕制作者所做的事情。我找到了 Result.getFrameNumber() 和 Token.getFrameNumber() 但它们似乎返回解码的帧数,而不是在整个音频文件的上下文中找到结果的时间(或帧)。

我查看了 AudioFileDataSource.getDuration()[=private] 和识别器类,但还没有弄清楚如何获得所需的转录时间索引..

想法?:)

4

1 回答 1

1

帧数是时间乘以帧速率,即 100 帧/秒。

无论如何,请在此处找到返回时间的字幕演示补丁:

http://sourceforge.net/mailarchive/forum.php?thread_name=1380033926.26218.12.camel%40localhost.localdomain&forum_name=cmusphinx-devel

该补丁适用于 subversion 主干,不适用于 1.0-beta 版本。

请注意,这部分正在进行重大重构,因此 API 将很快过时。但是,我希望您能够在没有当前复杂性的情况下通过几个调用创建字幕。

于 2013-09-27T07:35:14.287 回答