word2vec - Word2Vec 不包含数字 23 的嵌入

Question

嗨，我正在开发带有 Attention 的编码器-解码器模型，该模型预测给定事实关系的 WTO 小组报告，作为 Text_Inputs。

事实关系的 Sample_sentence 如下：

要求争端解决机构（“DSB”）成立一个小组，根据总协定第 XXIII:2 条和 DSU 第 6 条（WT/DS2/2）审查该事项。1995 年 4 月 10 日，DSB 根据委内瑞拉的要求成立了专家组。1995 年 4 月 28 日，争端各方同意专家组应有标准职权范围（DSU，第 7 条），并同意专家组的组成如下"

我正在尝试使用来自 google 的 Word2Vec 并将每个单词编码为 300dim 单词向量，但是，就像数字 23 出现在 Word2Vec VocaSets 中一样。

哪个是这个问题的解决方案？

1) 使用另一个词嵌入，例如 Glovec？

2）或其他任何其他建议？

提前谢谢您的帮助

编辑）

我认为要成功完成这项任务，我认为首先我必须了解当前的 NMT 应用程序在实际训练之前如何处理命名实体识别问题。

有什么暗示性的文献吗？

score 0 · Accepted Answer

Word2Vec 只学习它经常看到的单词。

也许尝试用文本替换源中的数字，即（“在...的二十三分之二”）？

word2vec - Word2Vec 不包含数字 23 的嵌入

1 回答 1

Related

Reference