3

我正在从事一个涉及使用大型数据矩阵进行计算的项目。我有 10,000 行和 100 列的 CSV 文件,其中有 10 个。目前,我正在运行一个后台作业,该作业从每个 CSV 读取数据,将其拉入一个数组,对数据运行一些矩阵乘法计算,然后移动到下一个 CSV。我确信有更好的方法可以做到这一点,因为处理工作所需的大部分时间似乎都花在了打开 CSV 上。我的问题实际上归结为我应该如何存储当前在这些 CSV 文件中的数据,以便轻松访问它并以更有效的方式运行计算。任何帮助,将不胜感激

编辑

正如评论中所建议的,我想补充一点,矩阵密度为 100%,并且数字都是浮点数。

4

3 回答 3

4

对于任何类型的大数据,CSV 都是一种非常非常低效的格式。鉴于您的所有数据都是数字,并且您的数据大小是一致的,因此最好使用紧凑的二进制格式。如果您以网络字节顺序将数据存储为 1,000,000 个 4 字节整数的二进制文件,其中前一百个是第一行,第二个是第二个,依此类推,它会将您的文件大小从 12MB 减少到 ~8MB,并且完全消除解析 CSV 的低效率(这真的是低效的)。要将您的数据转换为这种格式,请尝试运行此 Ruby 代码(我假设数据是 CSV 的二维数组):

newdat = data.flatten.map {|e| e.to_f}.pack("G*")

然后将 newdat 作为新数据写入文件:

f = File.open("data.dat", 'wb')
f.write(newdat)
f.close

要从文件中解析此数据:

data = File.open("data.dat", 'rb').read.unpack("G*").each_slice(100).to_a

这会将数据设置为您的矩阵作为二维数组。

注意:我实际上不能给你确切的数字来说明这个效率,因为我没有任何巨大的 CSV 文件,里面到处都是浮点数。但是,这应该更有效率。

于 2013-11-01T18:43:40.343 回答
2

您是否考虑过使用Marshal以二进制形式保存数组?我没有使用它,但它看起来很简单:

FNAME = 'matrix4.mtx'
a = [2.3, 1.4, 6.7]

File.open(FNAME, 'wb') {|f| f.write(Marshal.dump(a))}
b = Marshal.load(File.binread(FNAME)) # => [2.3,1.4,6.7]

当然,您必须将整个数组读入内存,但按照当前标准,这些数组似乎并没有那么大。

于 2013-11-01T23:16:01.520 回答
1

您始终可以将文件加载到 NMatrix 中,然后使用 NMatrix 二进制格式保存NMatrix#write。NMatrix 仍然需要一个 CSV 读取器和写入器,但我猜它实现起来非常简单——或者你可以在问题跟踪器中请求它。

x.write("mymatrix.binary")

然后:

y = NMatrix.read("mymatrix.binary")
# => NMatrix

它可以处理密集和稀疏存储。

于 2013-11-19T00:55:05.300 回答