-1

我有一个数据集,我想将其标记为命名实体识别。我的数据集是波斯语的。我想知道我应该如何标记表达式,例如:

*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。>>>(带有标题的名称)我应该将所有人标记为一个人还是只标记名字和姓氏?(我的意思是我也应该标记“先生”)

先生 >> b_per || 先生 >> o

迈赫迪 >> i_per || 迈赫迪 >> b_per

风见 >> i_per || 风见 >> i_per

*** بیمارستان نور = Noor 医院 >>> 我应该只标记名称还是将名称和医院都标记为命名实体?

*** 埃菲尔铁塔/国防部(我的意思是美国国防部)>>> 在波斯语中它被称为:وزارت دفاع(vezarate defa)我应该只标记防御吗?还是一起?

还有更多关于学校、电影、城市、国家和......的例子,因为我们在命名实体之前使用实体类。

如果您能帮我标记这个数据集,我将不胜感激。

4

3 回答 3

0

我会给你一些来自 CoNLL 2003 训练数据的例子:

“先生。” 未被标记为人员的一部分,因此标题被忽略。

“哥伦比亚长老会医院”被标记为 (LOC, LOC, LOC)

“纽约医院”(O,LOC,LOC,O)

“商务部”是(ORG、ORG、ORG)

我认为“埃菲尔铁塔”应该是(LOC,LOC)

于 2017-03-28T23:32:44.313 回答
0

通常,您标记为您希望输出的外观。例如,如果您想要包含标题,这取决于您。但是,Core NLP 不会标记重叠的实体,因此您必须对以某人命名的医院等案例做出决定。

于 2017-03-30T19:53:29.520 回答
-1

我相信你正在走向斯坦福 NLP 和 BIO 格式。但如果您还考虑其他选项,您可以查看结构化实体,例如:http ://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf 。

这些允许将实体描述为树,为信息提取提供更精细的分析。注释更繁琐,但如果您打算将注释用于语义目的,而不仅仅是索引,则可能相关。

于 2017-03-30T19:48:23.640 回答