machine-learning - Word2Vec 和 Glove 向量是否适合实体识别？

Question

我正在研究命名实体识别。我评估了基于传统 nlp 技术构建的库，例如 MITIE、Stanford NER、NLTK NER 等。我还研究了用于在向量空间中表示单词的深度学习模型，例如 word2vec 和 Glove 向量，它们很有趣，因为它们提供了有关单词上下文的信息，但特别是对于 NER 的任务，我认为它不太适合。由于所有这些向量模型都创建了词汇和相应的向量表示。如果任何单词未能在词汇表中，则将无法识别。假设命名实体很可能不存在，因为它们不受语言约束。它可以是任何东西。因此，如果在这种情况下必须使用任何深度学习技术，那就是那些通过使用标准英语词汇更依赖于句子结构的技术，即忽略命名字段。有没有这样的模型或方法可用？CNN 或 RNN 会是答案吗？

score 0 · Accepted Answer

我认为您的意思是某种语言的文本，但该文本中的命名实体可能包含不同的名称（例如来自其他语言）？

我首先想到的是一些半监督学习技术，模型会定期更新以反映新词汇。

例如，您可能希望使用 word2vec 模型来训练输入数据，并将可能的 NE 的词向量与现有的 NE 进行比较。它们的余弦距离应该很近。

machine-learning - Word2Vec 和 Glove 向量是否适合实体识别？

1 回答 1

Related

Reference