我正在尝试设计一个有点非传统的 NER 系统,将某些多字字符串标记为单个单元/标记。
那里有很多很酷的 NER 工具,但我有一些特殊需求,这使得直接使用开箱即用的东西几乎是不可能的:
首先,实体不能仅仅被提取并打印在一个列表中——它们需要以某种方式标记并合并为标记。
其次,分类并不重要——人/组织/位置并不重要(至少在输出中)。
第三,这些不仅仅是我们正在寻找的典型的 ENAMEX 命名实体。我们需要公司和组织,但也需要“气候变化”和“同性婚姻”等概念。我在一些工具上看到过这样的标签,但它们都是“提取式”的。
我将如何获得这种类型的功能?在我自己的手动注释数据集上训练斯坦福标注器会完成这项工作吗(其中“气候变化”式的短语被标记为 MISC 或其他东西)?还是我最好只列出“奇怪”实体的候选名单,并在通过常规 NER 系统运行后检查文本?
非常感谢!