使用时name=True
, np.genfromtxt
返回一个结构化数组。请注意,标记为col
的data.dat
列与以下形式的列名消除歧义col_n
:
In [114]: arr = np.genfromtxt('data', comments='#', delimiter='\t', dtype=None, names=True)
In [115]: arr
Out[115]:
array([(1, 2, 3, 1, 2, 3), (4, 3, 2, 3, 2, 4), (1, 4, 3, 1, 4, 3),
(5, 6, 4, 5, 6, 4)],
dtype=[('column_1', '<i8'), ('col', '<i8'), ('col_1', '<i8'), ('col_2', '<i8'), ('col_3', '<i8'), ('col_4', '<i8')])
因此,一旦使用names=True
,选择与列 name 关联的所有数据变得更加困难col
。此外,结构化数组不允许您一次切片多个列。因此,将数据加载到同质 dtype 数组中会更方便(如果没有 dtype,您将得到names=True
):
with open('data.dat', 'rb') as f:
header = f.readline().strip().split('\t')
arr = np.genfromtxt(f, comments='#', delimiter='\t', dtype=None)
然后您可以找到名称为的那些列的数字索引col
:
idx = [i for i, col in enumerate(header) if col=='col']
并选择所有数据
y = arr[:, idx]
例如,
import numpy as np
with open('data.dat', 'rb') as f:
header = f.readline().strip().split('\t')
arr = np.genfromtxt(f, comments='#', delimiter='\t', dtype=None)
idx = [i for i, col in enumerate(header) if col=='col']
y = arr[:, idx]
print(y)
产量
[[2 3 1 2 3]
[3 2 3 2 4]
[4 3 1 4 3]
[6 4 5 6 4]]
如果你想y
成为一维,你可以使用ravel()
:
print(y.ravel())
产量
[2 3 1 2 3 3 2 3 2 4 4 3 1 4 3 6 4 5 6 4]