有人知道是否有任何与语言无关的命名实体识别库吗?
谢谢
我对此表示怀疑。
理论上,如果您有大型注释语料库,您可以使用纯监督学习技术。但是,如果您不能使用依赖于语言的规则、启发式或特征,并且您正在寻找高精度和召回率 - 语料库的大小将必须是庞大的。我敢说,对于任何给定的人类口语,可能没有足够的注释数据来完成这项任务。
我认为多语言 BERT 模型是一个很好的起点,尽管您仍然需要在特定数据集上对其进行微调。如果您正在寻找的语言根本没有资源,您可以尝试在类似的语言上对其进行微调。要考虑的另一件事是将标签从一种语言转移到另一种语言。一种方法是使用多语言嵌入并搜索从源语言到目标语言的最近邻,并以这种方式进行翻译。