0

我正在尝试构建一个程序,该程序将查找书中的哪一页/句子被麦克风朗读。我有这本书的文本和它的音频内容。用户将从随机页面开始阅读,程序应该与用户同步并显示正在阅读的书的部分。它可能看起来无用的程序,但请多多包涵..

类似于类似 Shazam 的程序的方法会起作用吗?我不确定这些算法对语音的效果如何。此外,演讲者会有所不同,并且可能有口音和不同的阅读速度。

另一种方法是将语音转换为文本并在书中搜索文本。问题是这本书的语言是一种罕见的语言,没有可用的语言模型。此外,该脚本不使用拉丁字符,这使得编程变得困难(至少对我而言)。

有没有人可以推荐的解决方案?从音频文件中提取特征并与“实时”提取的特征(从麦克风)进行比较会起作用吗?有哪些特点?

我可以从任何实现/代码开始?任何语言都可以,但更喜欢 C。

4

1 回答 1

1

您需要使用语音识别器。

  1. 直接从书籍文本创建语言模型。这将使书籍阅读的识别非常准确,无论是原始阅读还是用户阅读。

  2. 使用此语言模型来识别书籍并为单词分配时间戳,或者使用更高级的算法来执行文本到音频的对齐。

  3. 使用特定于书籍的语言模型识别用户的语音,并使用识别的文本来显示书籍中的位置。

您可以将CMUSphinx用于上述任务。

于 2013-09-04T07:29:36.477 回答