1

我刚刚看了一个视频,他们使用维特比算法来确定句子中的某些单词是否打算用作名词/动词/adjs 等,他们使用了转换和发射概率,例如“时间”这个词被用作动词是已知的(发射)和名词引导到动词的概率(过渡)。

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu(视频)

我怎样才能为这个用例找到一个好的转换和发射概率数据集?

或者即使只是一个显示所有概率的示例,我也想在演示中使用真实的数字。

4

1 回答 1

0

通常,隐马尔可夫模型(HMM) 的实现不仅执行用于标记的 Viterbi 算法,还执行用于训练模型的算法(例如 Baum-Welch 算法)。那么获得模型(即转移和发射概率的集合)的方法是在合适的训练语料库(例如PennTreebank )上运行训练算法

我不知道任何可免费获得的、现成的基于 HMM 的 POS 标记器实现,它带有一个易于检查的预训练模型。然而,在许多方面类似于 HMM 的方法是条件随机场(CRF)。日本东北大学创建的CRFTagger似乎带有预训练的英语模型(model/model.txt下载和解压缩后请参阅文件)。该文件是人类可读的,但要了解格式的详细信息,您可能需要联系作者。

于 2012-04-13T05:25:24.930 回答