search - 在有语音的书中搜索

Question

我正在尝试构建一个程序，该程序将查找书中的哪一页/句子被麦克风朗读。我有这本书的文本和它的音频内容。用户将从随机页面开始阅读，程序应该与用户同步并显示正在阅读的书的部分。它可能看起来无用的程序，但请多多包涵..

类似于类似 Shazam 的程序的方法会起作用吗？我不确定这些算法对语音的效果如何。此外，演讲者会有所不同，并且可能有口音和不同的阅读速度。

另一种方法是将语音转换为文本并在书中搜索文本。问题是这本书的语言是一种罕见的语言，没有可用的语言模型。此外，该脚本不使用拉丁字符，这使得编程变得困难（至少对我而言）。

有没有人可以推荐的解决方案？从音频文件中提取特征并与“实时”提取的特征（从麦克风）进行比较会起作用吗？有哪些特点？

我可以从任何实现/代码开始？任何语言都可以，但更喜欢 C。

score 1 · Accepted Answer

您需要使用语音识别器。

您可以将CMUSphinx用于上述任务。

1 回答 1