我知道一些生成词嵌入的方法(例如 CBOW)是基于预测给定词出现在给定上下文中的可能性。我正在使用波兰语,这在分割方面有时会模棱两可,例如“Coś”可以被视为一个单词,也可以被视为两个单词(“Co”+“-ś”),具体取决于上下文. 我想要做的是创建一个上下文敏感的标记器。假设我有前面上下文的向量表示,以及所有可能的分割,我可以以某种方式计算或近似特定单词出现在这个上下文中的可能性吗?
问问题
46 次
1 回答
0
这在很大程度上取决于您获得嵌入的方式。CBOW 模型有两个参数,即表示为v的嵌入矩阵和输出投影矩阵v'。如果要恢复训练时 CBOW 模型中使用的概率,还需要得到v'。请参阅word2vec 论文中的等式 (2) 。用于预计算词嵌入的工具通常不会这样做,因此您需要自己修改它们。
无论如何,如果你想计算一个词的概率,给定一个上下文,你应该考虑使用(神经)语言模型而不是词嵌入表。如果您在 Internet 上搜索,我相信您会找到适合您需求的内容。
于 2019-09-23T10:52:13.780 回答