4

我需要构建一个分类器来识别特定域中的 NE。因此,例如,如果我的域是 Hockey 或 Football,分类器应该接受该域中的 NE,但不是它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。

对于在该领域工作的人,请建议我应该如何构建这样的分类器?谢谢!

4

2 回答 2

1

如果您只想忽略代词,您可以运行任何 POS 标记器,然后运行任何 NER 算法(Stanford 包是一种流行的实现),然后忽略任何作为代词的命名实体。但是,代词可能指的是命名实体,这可能对分类器的性能很重要,也可能不重要。唯一可以确定它尝试的方法。

一个稍微不相关的评论——在特定领域数据(例如曲棍球)上训练的 NER 系统更有可能从该领域中提取实体,因为它会看到一些上下文实体出现在其中。根据系统的不同,它也可能会选择由于语法,字形模式等原因,来自其他域的实体(如果我正确理解您的问题,您不想要)。

于 2012-04-03T07:37:34.600 回答
0

我认为像AutoNER这样的东西可能对此有用。本质上,系统的输入是来自特定域的文本文档和您希望系统识别的域特定实体的列表(例如您的曲棍球运动员)。

根据他们在本文中的结果,它们在识别化学名称和疾病名称等方面表现良好。

于 2019-02-01T03:48:03.593 回答