我正在使用 word2vec 模型来训练神经网络并构建神经嵌入以在向量空间上查找相似的单词。但我的问题是关于单词和上下文嵌入(矩阵)中的维度,我们在训练开始时通过随机数(向量)对其进行初始化,例如https://iksinc.wordpress.com/2015/04/13 /单词作为向量/
假设我们想在图表上显示 {book,paper,notebook,novel} 单词,首先我们应该构建一个尺寸为 4x2 或 4x3 或 4x4 等的矩阵,我知道矩阵的第一个维度是我们的词汇|v|。但是矩阵的第二维(向量的维数),例如这是单词“book”的向量[0.3,0.01,0.04],这些数字是什么?它们有什么意义吗?例如与0.3相关的数字对于词汇表中单词“book”和“paper”之间的关系,0.01是book和notebook等之间的关系。就像TF-IDF,或者Co-Occurence矩阵一样,每个维度(列)Y都有一个含义-它是与 X 行中的单词相关的单词或文档。