4

我有一个 3000x300 矩阵文件(浮点数)。当我阅读并转换为浮点数时,我得到了 float64,这是 python 中的默认值。我尝试了 numpy 和 map() 将其转换为 float32() 但它们似乎都非常低效。

我的代码:

x = open(readFrom, 'r').readlines()
y = [[float(i) for i in s.split()] for s in x]

用的时间:0:00:00.996000

numpy 实现:

x = open(readFrom, 'r').readlines()
y = [[np.float32(i) for i in s.split()] for s in x]

用的时间:0:00:06.093000

地图()

x = open(readFrom, 'r').readlines()
y = [map(np.float32, s.split()) for s in x]

用的时间:0:00:05.474000

如何非常有效地转换为 float32?

谢谢你。

Update:

numpy.loadtxt()numpy.genfromtxt()无法为大文件工作(给出内存错误)。我已经发布了一个与此相关的问题,我在这里介绍的方法适用于巨大的矩阵文件(50,000x5000)。这是问题

4

1 回答 1

2

如果内存是个问题,并且如果您提前知道字段的大小,那么您可能一开始就不想读取整个文件。像这样的东西可能更合适:

#allocate memory (np.empty would work too and be marginally faster, 
#                 but probably not worth mentioning).
a=np.zeros((3000,300),dtype=np.float32)  
with open(filename) as f:
    for i,line in enumerate(f):
        a[i,:]=map(np.float32,line.split()) 

从我机器上的几个快速(和令人惊讶的)测试来看,似乎map甚至可能没有必要:

a=np.zeros((3000,300),dtype=np.float32)  
with open(filename) as f:
    for i,line in enumerate(f):
        a[i,:]=line.split() 

这可能不是最快的,但肯定是最节省内存的方法。

一些测试:

import numpy as np

def func1():   #No map -- And pretty speedy :-).
    a=np.zeros((3000,300),dtype=np.float32)
    with open('junk.txt') as f:
        for i,line in enumerate(f):
            a[i,:]=line.split()

def func2():
    a=np.zeros((3000,300),dtype=np.float32)
    with open('junk.txt') as f:
        for i,line in enumerate(f):
            a[i,:]=map(np.float32,line.split())

def func3():
    a=np.zeros((3000,300),dtype=np.float32)
    with open('junk.txt') as f:
        for i,line in enumerate(f):
            a[i,:]=map(float,line.split())

import timeit

print timeit.timeit('func1()',setup='from __main__ import func1',number=3)  #1.36s
print timeit.timeit('func2()',setup='from __main__ import func2',number=3)  #11.53s
print timeit.timeit('func3()',setup='from __main__ import func3',number=3)  #1.72s
于 2012-07-17T18:05:39.203 回答