4

我最近正在使用 CMU 的 sphinx4 进行转录并最终强制对齐,即将音频与其转录对齐。

我找到了一个名为AutoCap的项目,它基本上完成了我想要开发的工作。所以,我安装了它,但它没有用。我尝试调整它,但我得到的只是不正确的时间戳。

所以,我想到了使用 sphinx4 并自己尝试一下。我使用 Sphinx 的 Transcriber.jar 文件成功转录了一个 wav 文件。但我无法让它适用于非数字数据的音频。自述文件页面指出“想要转录非数字数据的人应修改 config.xml 文件以使用正确的语法、语言模型和语言学家来执行此操作”

那么,任何人都可以为我提供一些帮助:

  • AutoCap
  • 使用 Sphinx4 转录非数字数据
  • 强制对齐

谢谢。

4

2 回答 2

2

有一个专门用于语音到文本对齐的特定项目。这不是一项微不足道的任务。开发在一个单独的 sphinx4 分支中进行。你可以在这里找到一些细节

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

如果您对此项目有任何疑问,欢迎在 sphinx4 论坛上提问

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

于 2011-08-13T14:37:48.660 回答
0

我目前正在处理同样的问题,即转录非数字数据。我已经简要查看了 sphinx 4 程序员指南文档,并按照建议使用了语言模型、声学模型和 JSGF 语法。然而,得到的回应却不尽如人意。我认为仅仅调整 config.xml 中的参数或更改是不够的。我认为我们需要一个本土算法来配合 sphinx 4,它可以执行更好的语音识别。从我这边.. 我使用了 lextreeliguist、JSFGGrammar 和 trigram 语言模型。但反响并不大。也许是因为音频输入不完全是美式英语。会再努力一点..让你知道我的结果

于 2011-09-03T09:16:38.540 回答