我有一个文本语料库,我想找到从字符开始的单词的嵌入。所以我有一个字符序列作为输入,我想将它投影到一个多维空间中。
作为初始化,我想拟合已经学过的词嵌入(例如,谷歌的词嵌入)。
我有些疑惑:
- 我是否需要为输入序列中的每个输入字符使用字符嵌入向量?如果我只使用 ascii 或 utf-8 编码会不会有问题?
- 尽管输入向量定义是什么(嵌入 vec、ascii、..),但选择合适的模型确实令人困惑,但我不确定哪个是更好的选择:seq2seq、自动编码器、lstm、多回归器+lstm ?
- 你能给我 keras 或 tensorflow 的任何示例代码吗?