python - 访问 Numpy 数组的列？尝试通过转置或按列访问执行的错误

Question

我有一个 numpy.ndarray 我想访问的列。我将在 8 之后取出所有列并测试它们的方差，如果方差/平均值较低，则删除该列。为此，我需要访问列，最好使用 Numpy。通过我目前的方法，我遇到错误或无法转置。

为了挖掘这些数组，我使用了 IOPro 适配器，它提供了一个常规的 numpy.ndarray。

import iopro
import sys

adapter = iopro.text_adapter(sys.argv[1], parser='csv')
all_data = adapter[:]
z_matrix = adapter[range(8,len(all_data[0]))][1:3]

print type(z_matrix) #check type
print z_matrix # print array
print z_matrix.transpose() # attempt transpose (fails)
print z_matrix[:,0] # attempt access by column (fails)

有人可以解释发生了什么吗？

输出是这样的：

<type 'numpy.ndarray'>
[ (18.712, 64.903, -10.205, -1.346, 0.319, -0.654, 1.52398, 114.495, -75.2488, 1.52184, 111.31, 175.
408, 1.52256, 111.699, -128.141, 1.49227, 111.985, -138.173)
 (17.679, 48.015, -3.152, 0.848, 1.239, -0.3, 1.52975, 113.963, -50.0622, 1.52708, 112.335, -57.4621
, 1.52603, 111.685, -161.098, 1.49204, 113.406, -66.5854)]
[ (18.712, 64.903, -10.205, -1.346, 0.319, -0.654, 1.52398, 114.495, -75.2488, 1.52184, 111.31, 175.
408, 1.52256, 111.699, -128.141, 1.49227, 111.985, -138.173)
 (17.679, 48.015, -3.152, 0.848, 1.239, -0.3, 1.52975, 113.963, -50.0622, 1.52708, 112.335, -57.4621
, 1.52603, 111.685, -161.098, 1.49204, 113.406, -66.5854)]
Traceback (most recent call last):
  File "z-matrix-filtering.py", line 11, in <module>
    print z_matrix[:,0]
IndexError: too many indices

出了什么问题？有没有更好的方法来访问列？我将读取文件的所有行，测试第 8 行的所有列是否存在显着差异，删除任何变化不大的列，然后将结果重新打印为新的 CSV。

编辑：根据回复，我创建了以下非常丑陋且我认为很愚蠢的方法。

all_data = adapter[:]
z_matrix = []

for line in all_data:
    to_append = []
    for column in range(8,len(all_data.dtype)):
        to_append.append(line[column].astype(np.float16))
    z_matrix.append(to_append)

z_matrix = np.array(z_matrix)

必须直接访问列的原因是数据内部有一个String。如果此字符串没有以某种方式被规避，则会抛出一个关于 void-array 的错误，其中对象成员使用缓冲区错误。有更好的解决方案吗？这看起来很糟糕，而且对于几 GB 的数据似乎效率很低。

score 5 · Accepted Answer

请注意，的输出print z_matrix具有以下形式

[ (18.712, 64.903, ..., -138.173)
  (17.679, 48.015, ..., -66.5854)]

也就是说，它被打印为一个元组列表。这是当数组是“结构化数组”时得到的输出。它是结构的一维数组。数组中的每个“元素”都有 18 个字段。发生错误是因为您试图索引一维数组，就好像它是二维的一样；z_matrix[:,0]不会工作。

打印数组的数据类型以查看详细信息。例如

print z_matrix.dtype

这应该显示字段的名称及其各个数据类型。

例如，您可以获取其中一个元素z_matrix[k]（其中k是整数），或者您可以访问“列”（实际上是结构化数组的一个字段）z_matrix['name']（更改'name'为 dtype 中的一个字段）。

如果所有字段都具有相同的数据类型（看起来像这里的情况——每个字段都有 type np.float64），您可以通过重塑方法的结果来创建数据的二维视图view。例如：

z_2d = z_matrix.view(np.float64).reshape(-1, len(z_matrix.dtype.names))

另一种按列号而不是名称获取数据的方法是：

col = 8  # The column number (zero-based).
col_data = z_matrix[z_matrix.dtype.names[col]]

有关结构化数组的更多信息，请参阅http://docs.scipy.org/doc/numpy/user/basics.rec.html。

score 1 · Accepted Answer

的显示z_matrix与它是一致的 shape (2,)，一维元组数组。

np.array([np.array(a) for a in z_matrix])

产生一个(2,18)二维数组。您应该能够对此进行列测试。

score 0 · Accepted Answer

访问 numpy 数组非常容易。这是一个简单的示例，可能会有所帮助

import numpy as n

A = n.array([[1, 2, 3], [4, 5, 6]])
print A 
>>> array([[1, 2, 3],
           [5, 6, 7]])

A.T                             // To obtain the transpose
>>> array([[1, 5],
           [2, 6],
           [3, 7]])

n.mean(A.T, axis = 1)          // To obtain column wise mean of array A
>>> array([ 3.,  4.,  5.])

我希望这将帮助您执行转置和按列操作

python - 访问 Numpy 数组的列？尝试通过转置或按列访问执行的错误

3 回答 3

Related

Reference