0

我的真实数据有大约 10000 多个项目。我有一个复杂的 numpy 记录数组,其格式大致如下:

a = (((1., 2., 3.), 4., 'metadata1'), 
     ((1., 3., 5.), 5., 'metadata1'), 
     ((1., 2., 4.), 5., 'metadata2'),
     ((1., 2., 5.), 5., 'metadata2'),  
     ((1., 3., 8.), 5., 'metadata3'))

我的列由dtype = [('coords', '3f4'), ('values', 'f4'), ('meta', 'S10')]. 我通过执行 set(a['meta']) 获得了所有可能的元值的列表。

我想根据“元”列将其拆分为更小的列表。理想情况下,我想要这样的结果:

a['metadata1'] == (((1., 2., 3.), 4.), ((1., 3., 5.), 5.))
a['metadata2'] == (((1., 2., 4.), 5.), ((1., 2., 5.), 5.))
a['metadata3'] == (((1., 3., 8.), 5.))

或者

a[0] = (((1., 2., 3.), 4., 'metadata1'), ((1., 3., 5.), 5., 'metadata1'))
a[1] = (((1., 2., 4.), 5., 'metadata2'), ((1., 2., 5.), 5., 'metadata2'))
a[2] = (((1., 3., 8.), 5., 'metadata3'))

或任何其他方便的拆分格式。

虽然,对于大型数据集,前者在内存上更好。关于如何进行这种拆分的任何想法?我在这里看到了其他一些问题,但它们都是在测试数值。

4

1 回答 1

2

您始终可以使用精美的索引轻松访问这些行:

In [34]: a[a['meta']=='metadata2']
Out[34]: 
rec.array([(array([ 1.,  2.,  4.], dtype=float32), 5.0, 'metadata2'),
           (array([ 1.,  2.,  5.], dtype=float32), 5.0, 'metadata2')], 
          dtype=[('coords', '<f4', (3,)), ('values', '<f4'), ('meta', 'S10')])

您可以使用这种方法为不同的元类型创建查找字典:

meta_dict = {}
for meta_type in np.unique(a['meta']):
    meta_dict[meta_type] = a[a['meta']==meta_type]

如果有大量元类型,这将非常低效。

一个更有效的解决方案可能是研究使用Pandas数据框。它们具有一功能,可以完全执行您描述的任务。

于 2014-05-30T23:41:10.467 回答