algorithm - 如何进行未经训练的语音到文本转换器？

Question

我从很小的时候就患有严重的耳聋，但幸运的是我可以像正常人一样说话。由于我的语音识别能力受损，即使是唇读，语言交流对我来说一直很困难。我只是通过阅读板、powerpoint幻灯片、书籍和互联网完成了学校和大学的学习。我目前的软件工程工作做得很好，但最近我觉得我必须付出一些努力来改善我的情况。

字幕是我在这个国家理解电视电影/节目的救星，而我在过去的 7 年里一直在享受这一点（我现在 31 岁）。

每当我与某个人，甚至是陌生人交谈时，我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器，首先它甚至不需要为我拼出确切的单词，只有音节/语音方面的提示也可以。

我已经用谷歌搜索了一段时间，但大多数结果要么是文本到语音，要么是半生不熟的语音识别尝试，以向计算机发出语音命令。我真的很想得到一些关于如何开始这个项目的指示。具体来说，我需要一些步骤，例如如何处理音频文件以及我必须做什么样的处理才能尽可能快地获得近似语音。

score 3 · Accepted Answer

您可能想查看CMU 的 Sphinx 项目，该项目实时对文本进行语音转换。他们有一些演示可以尝试。

score 1 · Accepted Answer

看看DSP 指南，它更多的是关于低级的东西，但傅里叶变换和滤波等技术对音频处理非常重要。即使您不是从头开始，也可以欣赏这些原理和应用程序。

也就是说，我敢打赌，从零开始，人们可以通过几天的工作创造出可以区分一组基本声音的东西……

score 1 · Accepted Answer

这里有一些其他问题可能会给你一些想法：

祝你好运。

3 回答 3