我想识别特定领域(例如棒球)中的命名实体。我知道有可用的工具,如 StanfordNER、LingPipe、AlchemyAPI,我对它们进行了一些测试。但正如我之前提到的,我希望它们是特定于领域的。这怎么可能?
问问题
1579 次
2 回答
3
一种方法可能是
使用通用(非特定领域)工具检测人名
使用主题分类器过滤掉不在域中的文本
如果数据集的总大小足够并且提取器和分类器的准确性足够好,您可以使用结果来获取与所讨论的域密切相关的人名列表(例如,通过将结果限制为那些在特定领域的文本中比在其他文本中提到的频率要高得多)。
以棒球为例,这应该是获取与棒球相关的人员列表的一种相当不错的方法。但是,仅获取棒球运动员名单并不是一个好方法。对于后者,有必要分析提到名称的确切上下文以及有关它们的内容;但也许这不是必需的。
编辑:通过主题分类器,我的意思与其他人可能简称为categorization、document classification、domain classification或类似的东西相同。即用型工具的示例包括 Python-NLTK 中的分类器(示例请参见此处)和 LingPipe 中的分类器(请参见此处)。
于 2012-04-09T10:23:30.483 回答
0
看看smile-ner.appspot.com,它涵盖了 250 多个类别。特别是,它涵盖了很多体育运动的人/团队/俱乐部。可能对您的目的有用。
于 2013-02-14T19:46:48.493 回答