3

到目前为止,我只阅读了有关 CRF 的理论,并想在我的硕士论文中使用 python crfsuite 从食谱中提取成分。感谢您的每一次帮助。

据我了解,我可以通过下图的形式给crfsuite提供训练数据,其中w[0]提供当前单词的标识,w[i]是相对于i的世界,pos[i]是它的一部分相对于 i 的-​​of-speech-tag。

训练数据格式

然后 crfsuite 在给定属性的基础上训练自己的特征函数。

但我找不到提供自定义特征函数的方法,例如“w[i] 在字典中”(例如食谱成分字典)或“在句子中是否定”(例如“不是”,或“不”)。

一般来说,好的教程很受欢迎,因为手册(https://python-crfsuite.readthedocs.io/en/latest/http://www.chokkan.org/software/crfsuite/manual.html)不是初学者 -从我的角度来看很友好

4

1 回答 1

2

使用python-crfsuite(或sklearn-crfsuite)训练数据不必是你描述的形式;单个训练序列应该是一个字典列表,{"feature_name": <feature_value>"}每个序列元素都有特征(例如,句子中的标记)。特征不必是单词或 POS 标签。还有一些其他受支持的功能格式(请参阅http://python-crfsuite.readthedocs.io/en/latest)。

有关更完整的示例,请查看https://github.com/TeamHG-Memex/sklearn-crfsuite/blob/master/docs/CoNLL2002.ipynb - 它使用自定义功能。

于 2016-10-29T18:57:05.417 回答