我正在尝试构建一个程序,该程序将查找书中的哪一页/句子被麦克风朗读。我有这本书的文本和它的音频内容。用户将从随机页面开始阅读,程序应该与用户同步并显示正在阅读的书的部分。它可能看起来无用的程序,但请多多包涵..
类似于类似 Shazam 的程序的方法会起作用吗?我不确定这些算法对语音的效果如何。此外,演讲者会有所不同,并且可能有口音和不同的阅读速度。
另一种方法是将语音转换为文本并在书中搜索文本。问题是这本书的语言是一种罕见的语言,没有可用的语言模型。此外,该脚本不使用拉丁字符,这使得编程变得困难(至少对我而言)。
有没有人可以推荐的解决方案?从音频文件中提取特征并与“实时”提取的特征(从麦克风)进行比较会起作用吗?有哪些特点?
我可以从任何实现/代码开始?任何语言都可以,但更喜欢 C。