我有以下问题:
将 Tf-Idf 过程应用于文本数据后,我有一个稀疏矩阵,其中包含 n 行和 250000 列。
有 2000 列特别感兴趣,所以我对矩阵进行切片:
new_matrix = old_matrix[:, needed_columns]
所以我得到了 n 行 2000 列的矩阵。但是我需要以某种方式将 new_matrix 列的索引映射到旧的。例如,new_matrix 的第 0 列是 old_matrix 的第 219 列,第 1 列是第 926 列,第 2 列是第 1004 列,依此类推。有什么办法吗?
不幸的是,由于内存限制,无法将其转换为 pandas 或 numpy。