3

每个人。我正在使用 Baum-Welch 算法来训练一个 pos 标注器,它完全是无监督的。问题来了:当我得到标签结果时,我只得到一个数字序列。我不知道哪个标签代表 VV、NN、DT。我怎么解决这个问题?

4

1 回答 1

5

一般来说,没有办法做到这一点。Baum-Welch 将找到具有相似分布的单词使用类别,但没有特别的理由假设这些类别将以任何直接的方式映射到任何特定语言理论所假定的类别。因此,无监督的词性标注器主要适用于您关心单词或短语的等价类而不关心分配的特定标签的应用程序。

但是,如果您真的需要人类可读的标签(例如,在开发过程中,以评估您获得的结果是否合理),我会手动标记几十个句子。然后,您可以将您的 BW 派生标记器应用于该标记的迷你语料库,以诱导类别编号和 POS 标签之间的映射。

于 2011-03-10T19:10:44.790 回答