对于语言学课程,我们使用隐马尔可夫模型实现了词性 (POS) 标记,其中隐变量是词性。我们在一些标记数据上对系统进行了训练,然后对其进行了测试,并将我们的结果与黄金数据进行了比较。
是否可以在没有标记训练集的情况下训练 HMM?
对于语言学课程,我们使用隐马尔可夫模型实现了词性 (POS) 标记,其中隐变量是词性。我们在一些标记数据上对系统进行了训练,然后对其进行了测试,并将我们的结果与黄金数据进行了比较。
是否可以在没有标记训练集的情况下训练 HMM?
理论上你可以做到这一点。在这种情况下,您将使用 Baum-Welch-Algorithm。Rabiner 的 HMM 教程中对它进行了很好的描述。
但是,将 HMM 应用于词性后,使用标准形式得到的错误不会那么令人满意。它是一种期望最大化的形式,它只收敛到局部最大值。基于规则的方法击败了 HMM,iirc。
我相信用于 python 的自然语言工具包 NLTK 具有用于该确切目的的 HMM 实现。
NLP 是几年前的事了,但我相信不标记 HMM 可以帮助确定 n-gram 的符号发射/状态转换概率(即“你好”之后出现“世界”的几率是多少),但不是部分-演讲。它需要标记的语料库来了解 POS 是如何相互关联的。
如果我对此不满意,请在评论中告诉我!