1

我正在尝试在推文上训练我自己的模型,在我的模型中,我关心主题标签中的 NE。但是,我想不出一种方法可以让该工具真正学习数据中的这种模式。这是 OpenNLP 的示例训练记录:

        RAW Text   ►   Wright State is in #DaytonOH

OpenNLP Training   ►   <START>Wright State<END> is in #<START>Dayton<END><START>OH<END>

现在,如果我按照此链接为斯坦福 NER 准备相同的文本:

Wright   LOC
State    LOC
is       O
in       O
#        O
Dayton   LOC
OH       LOC

这样可以吗?我们如何使它适用于字符级别而不是仅用于令牌级别?你认为 CRF 模块会学习这样的模式吗?还是我们应该忽略主题标签?

提前致谢。

-H

4

0 回答 0