如何从英语词嵌入生成非英语(法语、西班牙语、意大利语)词嵌入?
为非英语单词生成高质量词嵌入的最佳方法是什么?
单词可能包括 (samsung-galaxy-s9)
如何从英语词嵌入生成非英语(法语、西班牙语、意大利语)词嵌入?
为非英语单词生成高质量词嵌入的最佳方法是什么?
单词可能包括 (samsung-galaxy-s9)
如何从英语词嵌入生成非英语(法语、西班牙语、意大利语)词嵌入?
你真的不能。除非你有完全一样的词。如果你知道国王、王后、女人和男人的法语单词,你可以在英语中给这些单词嵌入完全相同的单词。它们将显示与英语单词相同的句法和语义属性。但是您不能真正使用英语嵌入来制作不同语言的嵌入。
为非英语单词生成高质量词嵌入的最佳方法是什么
英语单词和非英语单词可以同等对待。将您的非英语单词表示为字符串/标记并训练 w2v 模型。为此使用 gensim。你必须为你想要的语言找到一个巨大的语料库。然后你将不得不用这个庞大的语料库训练你的模型几个时期。完毕。或者,以您所需的语言查找预先存在的模型。
单词可能包括 (samsung-galaxy-s9)
除非您的语料库中有“samsung-galaxy-s9”之类的词,否则您的模型将不知道它的含义。使用在您希望使用嵌入的领域中可能包含更多单词的语料库。
对于非英语单词,可以尝试使用双语词典翻译带有嵌入向量的英语单词。
您需要一个大型语料库来生成高质量的词嵌入。对于非英语,您需要使用双语语料库的输入将双语约束添加到原始 w2v 损失中。
您可以将复合词视为一个完整的词,也可以根据您的应用将其拆分。