我从很小的时候就患有严重的耳聋,但幸运的是我可以像正常人一样说话。由于我的语音识别能力受损,即使是唇读,语言交流对我来说一直很困难。我只是通过阅读板、powerpoint幻灯片、书籍和互联网完成了学校和大学的学习。我目前的软件工程工作做得很好,但最近我觉得我必须付出一些努力来改善我的情况。
字幕是我在这个国家理解电视电影/节目的救星,而我在过去的 7 年里一直在享受这一点(我现在 31 岁)。
每当我与某个人,甚至是陌生人交谈时,我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器,首先它甚至不需要为我拼出确切的单词,只有音节/语音方面的提示也可以。
我已经用谷歌搜索了一段时间,但大多数结果要么是文本到语音,要么是半生不熟的语音识别尝试,以向计算机发出语音命令。我真的很想得到一些关于如何开始这个项目的指示。具体来说,我需要一些步骤,例如如何处理音频文件以及我必须做什么样的处理才能尽可能快地获得近似语音。