我正在为 NLP 任务构建 TensorFlow 模型,并且正在使用预训练的 Glove 300d 词向量/嵌入数据集。
显然,某些标记不能被解析为嵌入,因为没有包含在词向量嵌入模型的训练数据集中,例如稀有名称。
我可以用 0 的向量替换这些标记,但我更愿意以某种方式对其进行编码并将其包含到我的训练数据中,而不是将这些信息丢弃在地板上。
说,我有 'raijin' 词,它不能被解析为嵌入向量,用 Glove 嵌入数据集对其进行编码的最佳方法是什么?将其转换为 300d 矢量的最佳方法是什么?
谢谢你。