我正在使用 CRFSuite(python-crfsuite 实现)来构建命名实体提取器,类似于http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/上的教程CoNLL%202002.ipynb 训练输入是一个单词序列,每个单词都有许多特征。
问题在于,对于我的特定用例,我并不总是具有我试图识别的实体的特征。我希望 CRF 模型根据周围单词的特征来识别实体。但是,当我简单地输入一个空字典 {} 作为单词的特征时,命名实体永远不会被正确分类。
我想知道是否有处理这种情况的特征或标准方法,在训练模型后,一个模型并不总是具有所有项目的特征。