1

Watson 对话服务无法识别我的口音。因此,我使用了自定义模型,以下是使用自定义模型之前和之后的结果。

试验结果

在整合模型之前:- 当你有他们的座右铭时。希拉。贾巴在其中。女人。这。

整合模型后:- 我们给 Omatta David。斯里兰卡。贾巴在其中。数字。州长

实际音频- Audio 49,Wijayaba Mawatha,Kalubowila,Dehiwela,Sri Lanka.Government.Gov.

我如何包含自定义模型-我使用了从 github 分叉的演示中给出的相同文件 在 socket.js 中,我包含了自定义 id,如图所示。还有其他包含自定义模型的方法(集成自定义模型的方法)但我想知道我所做的方法是否正确?

这是我用来创建自定义模型的 python 代码。代码链接

这是我以 JSON 格式执行 python 代码后的语料库结果。语料库文件

这是自定义模型(包含在代码中的自定义模型文本文件),其中包含了所有斯里兰卡道路。

我分叉了文件并编辑了socket.js,如下所示。

4

2 回答 2

2

首先,除非我遗漏了什么,否则您所说的几个单词实际上并没有出现在 corpus1.txt 文件中。显然,该服务需要知道您希望它转录的单词。

接下来,该服务面向更常见的语音模式。任意名称的列表很困难,因为它无法根据上下文猜测单词。这通常是自定义语料库提供的内容,但在这种情况下不起作用(除非您碰巧按照它们在语料库中出现的确切顺序阅读名称 - 即便如此,它们也只出现一次并且没有任何上下文服务已经识别出来了。)

为了弥补这一点,除了自定义词的语料库之外,您可能需要为其中sounds_like的许多词提供一个来指示发音:http ://www.ibm.com/watson/developercloud/doc/speech-to-text/ custom.shtml#addWords

这是相当多的工作(必须为服务无法正确识别的每个单词完成),但应该会改善您的结果。

第三,您提供的音频文件有相当多的背景噪音,这会降低您的结果。更好的麦克风/录音位置/等。会有所帮助。

最后,说得更清楚,听写准确,尽可能接近“标准”美国英语口音,也应该有助于改善结果。

于 2017-01-03T22:33:09.067 回答
2

我看到的主要问题是音频非常嘈杂(我在后台听到火车轨道)。第二个问题是应该检查从语料库中提取的OOV单词的发音准确性。第三个问题可能是说话者的口音问题(我假设您使用的是美国英语模型)并且它有口音英语的问题。至于自定义模型训练数据,您可以尝试重复训练数据中的一些单词(以赋予新单词更多的权重)。

Tony Lee IBM 语音团队

于 2017-01-04T16:36:07.187 回答