0

我正在努力应对一个已被证明非常困难的挑战。我想构建一个可以接收语音输入以移动棋子的国际象棋游戏原型。

为了保持“简单”,我最初的目标是让程序能够可靠地理解声音“A-1”到“A-8”,然后通过字母表的前 8 个字母,代表 8x8 方格棋盘。

我尝试使用几个语音到文本的 API,但都被证明非常不可靠。这部分是由于我自己的口音,但也因为说 B4 和 C2 之类的话发出的声音显然很难被这些 API 解释。

我开始相信预先录制 64 种声音然后让算法尝试匹配 64 个样本之一上的传入声音可能更可行。

问题是,虽然使用语音到文本 API 非常简单,但我不知道如何处理这条替代路径。我已经做了 20 年的网络开发人员,但没有机器学习或训练模型的经验。希望这不是太疯狂,我只是想训练一个有 64 种声音的算法,或者也许有一个可用的语音识别软件支持用我自己的特殊口音训练它,并且能够识别字母声音之间的细微差别和可靠的数字。

非常感谢任何关于从哪里开始的建议。谢谢!

4

0 回答 0