2

我正在尝试设计一个有点非传统的 NER 系统,将某些多字字符串标记为单个单元/标记。

那里有很多很酷的 NER 工具,但我有一些特殊需求,这使得直接使用开箱即用的东西几乎是不可能的:

首先,实体不能仅仅被提取并打印在一个列表中——它们需要以某种方式标记并合并为标记。

其次,分类并不重要——人/组织/位置并不重要(至少在输出中)。

第三,这些不仅仅是我们正在寻找的典型的 ENAMEX 命名实体。我们需要公司和组织,但也需要“气候变化”和“同性婚姻”等概念。我在一些工具上看到过这样的标签,但它们都是“提取式”的。

我将如何获得这种类型的功能?在我自己的手动注释数据集上训练斯坦福标注器会完成这项工作吗(其中“气候变化”式的短语被标记为 MISC 或其他东西)?还是我最好只列出“奇怪”实体的候选名单,并在通过常规 NER 系统运行后检查文本?

非常感谢!

4

1 回答 1

3

命名实体标记器(如斯坦福 NER)的底层 CRF 模型实际上可用于识别任何事物,而不仅仅是命名实体。肯定有人非常成功地使用它们来挑选各种术语短语。该软件当然可以在上下文中为您提供标记的令牌序列。

但是,您可以选择是否以“更无监督”的方式处理此问题,其中使用 NP 分块和搭配统计等方法,或者直接 CRF 的完全监督方式,您提供大量注释您想要输出的短语类型的数据。

于 2012-06-27T21:29:31.137 回答