嗨,我正在开发带有 Attention 的编码器-解码器模型,该模型预测给定事实关系的 WTO 小组报告,作为 Text_Inputs。
事实关系的 Sample_sentence 如下:
要求争端解决机构(“DSB”)成立一个小组,根据总协定第 XXIII:2 条和 DSU 第 6 条(WT/DS2/2)审查该事项。1995 年 4 月 10 日,DSB 根据委内瑞拉的要求成立了专家组。1995 年 4 月 28 日,争端各方同意专家组应有标准职权范围(DSU,第 7 条),并同意专家组的组成如下"
我正在尝试使用来自 google 的 Word2Vec 并将每个单词编码为 300dim 单词向量,但是,就像数字 23 出现在 Word2Vec VocaSets 中一样。
哪个是这个问题的解决方案?
1) 使用另一个词嵌入,例如 Glovec?
2)或其他任何其他建议?
提前谢谢您的帮助
- 编辑)
我认为要成功完成这项任务,我认为首先我必须了解当前的 NMT 应用程序在实际训练之前如何处理命名实体识别问题。
有什么暗示性的文献吗?