我正在尝试找出适应开放命名实体识别问题的最佳模型(生物学/化学,因此不存在实体字典,但必须通过上下文识别它们)。
目前我最好的猜测是调整 Syntaxnet,这样它不会将单词标记为 N、V、ADJ 等,而是学习标记为 BEGINNING、INSIDE、OUT(IOB 表示法)。
但是我不确定这些方法中哪一种是最好的?
- 语法网
- word2vec
- seq2seq(我认为这不是正确的,因为我需要它来学习两个对齐的序列,而 seq2seq 是为翻译中不同长度的序列而设计的)
将不胜感激指向正确方法的指针!谢谢!