0

嗨,我正在开发带有 Attention 的编码器-解码器模型,该模型预测给定事实关系的 WTO 小组报告,作为 Text_Inputs。

事实关系的 Sample_sentence 如下:

要求争端解决机构(“DSB”)成立一个小组,根据总协定第 XXIII:2 条和 DSU 第 6 条(WT/DS2/2)审查该事项。1995 年 4 月 10 日,DSB 根据委内瑞拉的要求成立了专家组。1995 年 4 月 28 日,争端各方同意专家组应有标准职权范围(DSU,第 7 条),并同意专家组的组成如下"

我正在尝试使用来自 google 的 Word2Vec 并将每个单词编码为 300dim 单词向量,但是,就像数字 23 出现在 Word2Vec VocaSets 中一样。

在此处输入图像描述

哪个是这个问题的解决方案?

1) 使用另一个词嵌入,例如 Glovec?

2)或其他任何其他建议?

提前谢谢您的帮助

  • 编辑)

我认为要成功完成这项任务,我认为首先我必须了解当前的 NMT 应用程序在实际训练之前如何处理命名实体识别问题。

有什么暗示性的文献吗?

4

1 回答 1

0

Word2Vec 只学习它经常看到的单词。

也许尝试用文本替换源中的数字,即(“在...的二十三分之二”)?

于 2018-01-24T06:36:17.697 回答