7

我想知道标准化/标准化 numpy 的最佳方法是什么recarray。为了清楚起见,我说的不是数学矩阵,而是一个记录数组,它也有文本列(如标签)。

a = np.genfromtxt("iris.csv", delimiter=",", dtype=None)
print a.shape
> (150,)

如您所见,我无法处理a[:,:-1],因为形状是一维的。

我发现最好的方法是遍历所有列:

for nam in a.dtype.names[:-1]:
    col = a[nam]
    a[nam] = (col - col.min()) / (col.max() - col.min())

还有更优雅的方法吗?某处是否有诸如“标准化”或“标准化”之类的方法?

4

2 回答 2

7

有很多方法可以做到这一点,但有些方法比其他方法更干净。

通常,在 numpy 中,您将字符串数据保存在单独的数组中。

(事物比 R 的数据框要低级一些。您通常只需将事物包装在一个类中以进行关联,但将不同的数据类型分开。)

老实说,numpy 并未针对处理诸如此类的“灵活”数据类型进行优化(尽管它当然可以做到)。诸如pandas为“类似电子表格”的数据提供更好的界面(而 pandas 只是 numpy 之上的一层)之类的东西。

但是,结构化数组(这就是您在此处所拥有的)将允许您在传入字段名称列表时按列对它们进行切片。(例如data[['col1', 'col2', 'col3']]

无论如何,一种方法是做这样的事情:

import numpy as np

data = np.recfromcsv('iris.csv')

# In this case, it's just all but the last, but we could be more general
# This must be a list and not a tuple, though.
float_fields = list(data.dtype.names[:-1])

float_dat = data[float_fields]

# Now we just need to view it as a "regular" 2D array...
float_dat = float_dat.view(np.float).reshape((data.size, -1))

# And we can normalize columns as usual.
normalized = (float_dat - float_dat.min(axis=0)) / float_dat.ptp(axis=0)

然而,这远非理想。如果您想就地执行操作(就像您现在一样),最简单的解决方案就是您已经拥有的:只需遍历字段名称。

顺便说一句,使用pandas,你会做这样的事情:

import pandas
data = pandas.read_csv('iris.csv', header=None)

float_dat = data[data.columns[:-1]]
dmin, dmax = float_dat.min(axis=0), float_dat.max(axis=0)

data[data.columns[:-1]] = (float_dat - dmin) / (dmax - dmin)
于 2012-03-19T18:56:14.580 回答
1

您使用的是哪个版本的 NumPy?在 1.5.1 版中,我没有这种行为。我做了一个简短的文本文件作为例子,保存为test.txt

last,first,country,state,zip
tyson,mike,USA,Nevada,89146
brady,tom,USA,Massachusetts,02035

当我然后执行以下代码时,这就是我得到的:

>>> import numpy as np
>>> a = np.genfromtxt("/home/ely/Desktop/Python/test.txt",delimiter=',',dtype=None)
>>> print a.shape
(3,5)
>>> print a
[['last' 'first' 'country' 'state' 'zip']
 ['tyson' 'mike' 'USA' 'Nevada' '89146']
 ['brady' 'tom' 'USA' 'Massachusetts' '02035']]
>>> print a[0,:-1]
['last' 'first' 'country' 'state']
>>> print a.dtype.names
None

我只是想知道你的数据有什么不同。

于 2012-03-19T18:57:31.450 回答