3

我正在研究命名实体识别。我评估了基于传统 nlp 技术构建的库,例如 MITIE、Stanford NER、NLTK NER 等。我还研究了用于在向量空间中表示单词的深度学习模型,例如 word2vec 和 Glove 向量,它们很有趣,因为它们提供了有关单词上下文的信息,但特别是对于 NER 的任务,我认为它不太适合。由于所有这些向量模型都创建了词汇和相应的向量表示。如果任何单词未能在词汇表中,则将无法识别。假设命名实体很可能不存在,因为它们不受语言约束。它可以是任何东西。因此,如果在这种情况下必须使用任何深度学习技术,那就是那些通过使用标准英语词汇更依赖于句子结构的技术,即忽略命名字段。有没有这样的模型或方法可用?CNN 或 RNN 会是答案吗?

4

1 回答 1

0

我认为您的意思是某种语言的文本,但该文本中的命名实体可能包含不同的名称(例如来自其他语言)?

我首先想到的是一些半监督学习技术,模型会定期更新以反映新词汇。

例如,您可能希望使用 word2vec 模型来训练输入数据,并将可能的 NE 的词向量与现有的 NE 进行比较。它们的余弦距离应该很近。

于 2015-09-12T17:59:28.673 回答