感谢您的帮助。我正在做一些命名实体标记,并遇到了一些模棱两可的术语。我主要遵循 CoNLL2003 注释指南和 MUC-7 命名实体定义(其他注释指南大多与这些指南共享相同的想法)
https://www.clips.uantwerpen.be/conll2003/ner/
https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html
对于例句“我在北美和南美做生意”,我应该如何标记“北美和南美”?整个短语作为一个“位置”实体,还是“北”和“南美洲”作为两个“位置”实体?
我正在标记一些法律报告(来自美国证券交易委员会的 EDGAR 数据集),所以我遇到了诸如“Form 10”、“Form 8-K”之类的短语,它们是美国公司的法律表格类型。这些是否应该被视为“杂项”命名实体?
在这些表格中,有“合并财务报表”、“管理层讨论与分析”等章节名称,是否应标记为“杂项”?
如果是,那么诸如“年度报告”、“股东年度会议”、“普通股”、“限制性股票单位”之类的短语就会变得非常模糊。可以说它们是一种“法律文件”的名称,或者是一种“金融工具”的名称。但是这些短语在某种程度上是通用的,并没有指出一个特定的实体。它们应该是“杂项”还是“在命名实体之外”(不是命名实体)?