为了对我的Doc2Vec训练模型进行简单评估,我需要将 400 维向量转换为 2 维并将文档可视化为一组节点,其中任意两个节点之间的距离与其相似度成反比(节点高度相似的都靠得很近)。
经过一番搜索,我找到了 MDS(多维缩放)和sklearn MDS库。
现在我有 220 万个向量,每个向量都有 400 个维度,我不知道如何以正确的语法以最低的成本将它们传递给 sklearn MDS 函数。我知道在 2.2M 向量之间创建相似矩阵是不可能的。
为了对我的Doc2Vec训练模型进行简单评估,我需要将 400 维向量转换为 2 维并将文档可视化为一组节点,其中任意两个节点之间的距离与其相似度成反比(节点高度相似的都靠得很近)。
经过一番搜索,我找到了 MDS(多维缩放)和sklearn MDS库。
现在我有 220 万个向量,每个向量都有 400 个维度,我不知道如何以正确的语法以最低的成本将它们传递给 sklearn MDS 函数。我知道在 2.2M 向量之间创建相似矩阵是不可能的。
对于一个相当相似的任务,我发现减少 Doc2Vec 的维数(在我们的例子中从默认的 100 到 30)对于在 Macbook Pro 上工作时的任何类型的空间重建都是绝对关键的,即使对于相对较小的数据集也是如此。
这是一个很好的起点(尽管减少了 tSNE 和过时的接口)。