speech-recognition - 使用自定义模型的 Watson Speech-to-text 准确性低

Question

Watson 对话服务无法识别我的口音。因此，我使用了自定义模型，以下是使用自定义模型之前和之后的结果。

试验结果

在整合模型之前：- 当你有他们的座右铭时。希拉。贾巴在其中。女人。这。

整合模型后：- 我们给 Omatta David。斯里兰卡。贾巴在其中。数字。州长

实际音频- Audio 49,Wijayaba Mawatha,Kalubowila,Dehiwela,Sri Lanka.Government.Gov.

我如何包含自定义模型-我使用了从 github 分叉的演示中给出的相同文件在 socket.js 中，我包含了自定义 id，如图所示。还有其他包含自定义模型的方法（集成自定义模型的方法)但我想知道我所做的方法是否正确？

这是我用来创建自定义模型的 python 代码。代码链接

这是我以 JSON 格式执行 python 代码后的语料库结果。语料库文件

这是自定义模型（包含在代码中的自定义模型文本文件），其中包含了所有斯里兰卡道路。

我分叉了文件并编辑了socket.js，如下所示。

score 2 · Accepted Answer

首先，除非我遗漏了什么，否则您所说的几个单词实际上并没有出现在 corpus1.txt 文件中。显然，该服务需要知道您希望它转录的单词。

接下来，该服务面向更常见的语音模式。任意名称的列表很困难，因为它无法根据上下文猜测单词。这通常是自定义语料库提供的内容，但在这种情况下不起作用（除非您碰巧按照它们在语料库中出现的确切顺序阅读名称 - 即便如此，它们也只出现一次并且没有任何上下文服务已经识别出来了。）

为了弥补这一点，除了自定义词的语料库之外，您可能需要为其中sounds_like的许多词提供一个来指示发音：http ://www.ibm.com/watson/developercloud/doc/speech-to-text/ custom.shtml#addWords

这是相当多的工作（必须为服务无法正确识别的每个单词完成），但应该会改善您的结果。

第三，您提供的音频文件有相当多的背景噪音，这会降低您的结果。更好的麦克风/录音位置/等。会有所帮助。

最后，说得更清楚，听写准确，尽可能接近“标准”美国英语口音，也应该有助于改善结果。

score 2 · Accepted Answer

我看到的主要问题是音频非常嘈杂（我在后台听到火车轨道）。第二个问题是应该检查从语料库中提取的OOV单词的发音准确性。第三个问题可能是说话者的口音问题（我假设您使用的是美国英语模型）并且它有口音英语的问题。至于自定义模型训练数据，您可以尝试重复训练数据中的一些单词（以赋予新单词更多的权重）。

Tony Lee IBM 语音团队