我正在尝试在推文上训练我自己的模型,在我的模型中,我关心主题标签中的 NE。但是,我想不出一种方法可以让该工具真正学习数据中的这种模式。这是 OpenNLP 的示例训练记录:
RAW Text ► Wright State is in #DaytonOH
OpenNLP Training ► <START>Wright State<END> is in #<START>Dayton<END><START>OH<END>
现在,如果我按照此链接为斯坦福 NER 准备相同的文本:
Wright LOC
State LOC
is O
in O
# O
Dayton LOC
OH LOC
这样可以吗?我们如何使它适用于字符级别而不是仅用于令牌级别?你认为 CRF 模块会学习这样的模式吗?还是我们应该忽略主题标签?
提前致谢。
-H