我在 Python 中工作,我有一个存储在文本文件中的矩阵。文本文件以这样的格式排列:
row_id, col_id
row_id, col_id
...
row_id, col_id
row_id 和 col_id 是整数,它们取值从 0 到 n(为了知道 row_id 和 col_id 的 n,我必须先扫描整个文件)。
文件中没有标题,row_ids 和 col_ids 出现多次,但每个组合 row_id,col_id 出现一次。每个组合 row_id,col_id 没有明确的值,实际上每个单元格的值为 1。该文件几乎是 1 GB 大小。
不幸的是,该文件在内存中很难处理,实际上,对于 26622704 个元素,它是 2257205 row_ids 和 122905 col_ids。所以我一直在寻找更好的方法来处理它。矩阵市场形式可能是处理它的一种方式。
是否有一种快速且内存有效的方法可以使用 Python将此文件转换为市场矩阵格式(http://math.nist.gov/MatrixMarket/formats.html#mtx )的文件?