1

我有一个包含整数数据的文件,其中前几行/列用于名称。

我希望能够使用genfromtxtloadtxt仍然得到 numpy 将其作为同质数组读取。为此,我使用了这些选项skiprowsusecols但没有帮助。在下面的(工作)示例中,我希望print(test_array.shape)给出 (3,3) 并print(test.array)给出

[[0 0 0]
 [0 1 0]
 [1 0 0]]

在尝试加载文件之前,有没有什么方法可以在不使用 unix 工具修剪第一行/列的情况下实现我想要的?请注意,我要加载的实际文件很大(约 6 gigs),因此任何解决方案都不应过于计算密集。

from __future__ import print_function
from StringIO import StringIO #use io.StringIO with py3
import numpy as np

example_file = StringIO("FID 1 2 3\n11464_ATCACG 0 0 0\n11465_CGATGT 0 1 0\n11466_TTAGGC 1 0 0")
test_array = np.loadtxt(example_file, skiprows=1, usecols=(1,), dtype=int)

print(test_array.shape) #(3,)
print(test_array) #[0 0 1]
4

1 回答 1

1

usecols您可以skip_headernp.genfromtxt. 然后它可以正常工作:

test_array = np.genfromtxt(example_file, skip_header=1, usecols=(1,2,3))
>>> print(test_array)
[[ 0.  0.  0.]
 [ 0.  1.  0.]
 [ 1.  0.  0.]]
于 2013-10-27T10:28:49.127 回答