8

我正在尝试找出适应开放命名实体识别问题的最佳模型(生物学/化学,因此不存在实体字典,但必须通过上下文识别它们)。

目前我最好的猜测是调整 Syntaxnet,这样它不会将单词标记为 N、V、ADJ 等,而是学习标记为 BEGINNING、INSIDE、OUT(IOB 表示法)。

但是我不确定这些方法中哪一种是最好的?

  • 语法网
  • word2vec
  • seq2seq(我认为这不是正确的,因为我需要它来学习两个对齐的序列,而 seq2seq 是为翻译中不同长度的序列而设计的)

将不胜感激指向正确方法的指针!谢谢!

4

1 回答 1

8

Syntaxnet 可用于命名实体识别,例如:Named Entity Recognition with Syntaxnet

单独的 word2vec 对命名实体识别不是很有效。我不认为 seq2seq 通常用于该任务。

正如 drpng 提到的,您可能需要查看tensorflow/tree/master/tensorflow/contrib/crf。在 CRF 层之前添加一个 LSTM 会有所帮助,这会给出如下内容:

在此处输入图像描述

TensorFlow 中的 LSTM+CRF 代码:https ://github.com/Franck-Dernoncourt/NeuroNER

于 2017-02-19T00:43:51.273 回答