0

我正在使用 CRFSuite(python-crfsuite 实现)来构建命名实体提取器,类似于http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/上的教程CoNLL%202002.ipynb 训练输入是一个单词序列,每个单词都有许多特征。

问题在于,对于我的特定用例,我并不总是具有我试图识别的实体的特征。我希望 CRF 模型根据周围单词的特征来识别实体。但是,当我简单地输入一个空字典 {} 作为单词的特征时,命名实体永远不会被正确分类。

我想知道是否有处理这种情况的特征或标准方法,在训练模型后,一个模型并不总是具有所有项目的特征。

4

1 回答 1

0

在某些情况下,为“-”或“+”等缺失特征分配固定值可能很有用。

于 2015-07-13T14:49:08.407 回答