我有一个数据集,我想将其标记为命名实体识别。我的数据集是波斯语的。我想知道我应该如何标记表达式,例如:
*** آقای مهدی کاظمی = Mehdi Kazemi 先生 / Will Smith 先生。>>>(带有标题的名称)我应该将所有人标记为一个人还是只标记名字和姓氏?(我的意思是我也应该标记“先生”)
先生 >> b_per || 先生 >> o
迈赫迪 >> i_per || 迈赫迪 >> b_per
风见 >> i_per || 风见 >> i_per
*** بیمارستان نور = Noor 医院 >>> 我应该只标记名称还是将名称和医院都标记为命名实体?
*** 埃菲尔铁塔/国防部(我的意思是美国国防部)>>> 在波斯语中它被称为:وزارت دفاع(vezarate defa)我应该只标记防御吗?还是一起?
还有更多关于学校、电影、城市、国家和......的例子,因为我们在命名实体之前使用实体类。
如果您能帮我标记这个数据集,我将不胜感激。