我想执行降维(DR)技术来可视化我的数据以及它们之间的相关性。我计划使用Barnes-hut tsne,但我无法了解如何向 TSNE 提供输入,因为示例应用程序根据用户指南具有常规矩阵形式的数据。我有大约 1200 万条记录和 5000 个不同的值,我无法将它们存储到主内存中。我想执行降维(DR),以便在二维散点图上可视化这些不同的值。我有邻接列表形式的数据(因为它太稀疏了)。
比方说,我有以下记录:
2 3 10
4 6
7
7 9 10
2
5 6
这些应该是我的前 6 条记录。在这种情况下,我只有 10 个不同的值。上面的矩阵(表)表明第一条记录有 2,3 和 10 列为 1,而其他列为 0(邻接表)。
这些不同的值映射到文档(记录)中存在的单词(标签)。
如何使用此类数据执行快速 TSNE。或者如何将其转换为 TSNE 所需的兼容格式?我应该更喜欢哪种语言?
我更喜欢使用 Python 或 Matlab,但其他任何东西也都可以。让我知道你的建议。
PS我有非常高的计算机来完成这项任务。