1

我有一个数据集(在文件中),由具有各种属性(列)的多个观察值(行)组成。例如:

AttrA   AttrB   AttrC
 1       12      'a'
 2       43      'd'
 3       23      'f'
 4       25      'z' 

我将此数据集放入 python 字典中,这样:

data = {'AttrA':[1,2,3,4],'AttrB':[12,43,23,25],'AttrC':['a','d','f','z']}

我希望能够根据其中一个键的标准过滤观察结果。举些例子。过滤 AttrA >= 3 的观测值,这样:

 AttrA   AttrB   AttrC
 3       23      'f'
 4       25      'z' 

或者

reducedData = {'AttrA':[3,4],'AttrB':[23,25],'AttrC':['f','z']}

似乎您可以执行以下操作:reduceddata = {(k,v) for k,v in data if (??)},但我不确定 if 语句之后的内容。此外,字典是用于此示例的最佳数据类型吗?如果数据在嵌套列表中,似乎更容易过滤。

先感谢您!!

4

3 回答 3

2

我会先改变结构:

table = [dict(zip(data.keys(), row)) for row in zip(*data.values())]

它看起来像这样:

[{'AttrA': 1, 'AttrB': 12, 'AttrC': 'a'},
 {'AttrA': 2, 'AttrB': 43, 'AttrC': 'd'},
 {'AttrA': 3, 'AttrB': 23, 'AttrC': 'f'},
 {'AttrA': 4, 'AttrB': 25, 'AttrC': 'z'}]

现在,您可以完全按照您的描述过滤它:

[row for row in table if row['AttrA'] >= 3]
于 2013-06-02T04:09:17.803 回答
1
def my_filter(data,attr,val):
    ind = [i for i,x in enumerate(data[attr]) if x >= val]
    reducedData  = {k: [v[i] for i in ind] for k,v in data.items()}
    return reducedData 

data = {'AttrA':[1,2,3,4],'AttrB':[12,43,23,25],'AttrC':['a','d','f','z']}

print my_filter(data, 'AttrA',3)

输出:

{'AttrB': [23, 25], 'AttrC': ['f', 'z'], 'AttrA': [3, 4]}
于 2013-06-02T04:04:37.957 回答
0

我想我会选择:

data = [(12, 'a'), (43, 'd'), (23, 'f'), (25, 'z')]
data_dic = dict(enumerate(data, 1))
reducedData = {k:v for k, v in data_dic if k >= 3}
于 2013-06-02T04:09:41.007 回答