我正在做一个关于他加禄语形态分析仪的项目。它使用修改后的他加禄语 WordFrame 模型,使用 Trie 数据结构存储规则和“根词,转换词”形式的基于示例的训练集。使用 Java 作为编程语言我在下面的链接中使用本文作为参考:
我在执行最后一步时遇到了麻烦。
这是我到目前为止所做的:
- 能够从训练集中分割表中的单词
- 有一个 Trie 数据结构,我可以在其中存储规则
不清楚的地方:
- 我了解我如何需要一些条件概率来确定如何从根词生成正确的转换词。但是,我对如何应用学到的规则有点困惑。我从哪里获得训练集的概率?
- 我真的需要语料库来获得概率吗?或者训练集是否足够?
- 在这种情况下,“最高对齐概率”将如何应用?
- 当存储学习到的规则时,比如内部元音变化的“o->u”,我是否只在我的 Trie 中存储“ou”?或者它应该包括它来自哪里的词根。
先感谢您。