1

只用 50 个单词编写用于语音识别的语法文件很容易,因为您可以手动完成。如果你有 10,000 或 100,000 个单词,最简单、最有效的方法是什么?

示例:
假设我们有“RC 可乐”和“百事可乐”。我们将有包含 2 条规则的语法文件:
DRINK: (COLANAME ?[coke cola soda])
COLANAME: [rc pepsi]
它会识别“RC”、“RC Coke”、“RC Cola”、“RC Soda”、“百事可乐”、“百事可乐”、“百事可乐”和“百事苏打”。

编辑:我说的是语音识别的语法。语音识别系统需要一个随附的语法文件,以便它们知道要识别什么(gsl、grxml)。我实际上也在考虑的不仅仅是任何单词,还有一些你无法分类的名字。

4

5 回答 5

5

现在我明白了。你的意思是语法。您指定的语法格式是上下文无关语法的近亲。围绕上下文无关语法的自动学习存在一个研究领域。概率上下文无关文法是该领域的核心。请参阅Roni Rosenfeld 的关于学习 PCFG 的笔记 (PostScript)、贝叶斯版本(压缩后记)无监督 PCFG 学习 (PDF)。这是一个活跃的研究领域,自从这些论文发表以来已经发生了变化。Eugene Charniak是该领域的多产研究员。

于 2009-03-17T09:05:57.130 回答
1

对于 50 到 10 万字的词典,几乎可以肯定的是,构建听写语法比尝试构建上下文无关语法更好。微软免费提供他们的听写资源工具包;我没用过,所以不能评价它的实用性。

于 2009-09-18T20:38:06.717 回答
0

我假设您的意思是词性标记;最快的方法是使用自动标记器并手动验证(和更正)结果。即使标注器的命中率低至 60-70%,它仍然会显着减少工作量。

于 2009-03-17T08:08:26.910 回答
0

我没有可以解决我的问题的答案,但 Yuval 的回答清楚地表明这是一个仍在开发中的主题,它还不是一个足够成熟的主题。我知道现在可能没有简单的语法修复(至少在研究实验室之外)。现在做好语法的唯一解决方案可能是不断学习用户输入和敏捷重构语法文件。

于 2009-03-31T06:53:50.627 回答
-1

我头脑中完全随机/模糊的想法:

- 您可以尝试将单词分类(名词、动词等),然后根据单词的类别为整个陈述/句子形成可能正确的形式。然后,您可以尝试根据单词及其使用顺序将新测试数据拟合到先前定义的模型中。

-我也很好奇使用某种机器学习算法来学习基于某种训练数据或文献的单词的正确使用。一旦你训练了你的算法,你可以尝试根据以前的结果对新的传入数据进行分类。

于 2009-03-17T07:18:14.677 回答