9

从 Matlab 慢慢过渡到 Python...

我有这个表格清单

list1 = [[1, 2, nan], [3, 7, 8], [1, 1, 1], [10, -1, nan]] 

和另一个具有相同数量项目的列表

list2 = [1, 2, 3, 4]

我正在尝试提取 list1 中不包含任何 nan 值的元素,以及 list2 中的相应元素,即结果应该是:

list1_clean = [[3, 7, 8], [1, 1, 1]]
list2_clean = [2, 3]

在 Matlab 中,这很容易通过逻辑索引来完成。

在这里,我感觉某种形式的列表理解可以解决问题,但我被困在:

list1_clean = [x for x in list1 if not any(isnan(x))]

这显然对list2没有用。

或者,以下逻辑索引尝试不起作用(“索引必须是整数,而不是列表”)

idx = [any(isnan(x)) for x in list1]
list1_clean = list1[idx]
list2_clean = list2[idx]

我敢肯定这是微不足道的,但我无法弄清楚,感谢帮助!

4

3 回答 3

6

您可以使用zip.

zip从传递给它的可迭代对象中返回同一索引上的项目。

>>> from math import isnan
>>> list1 = [[1, 2, 'nan'], [3, 7, 8], [1, 1, 1], [10, -1,'nan']]
>>> list2 = [1, 2, 3, 4]
>>> out = [(x,y)  for x,y in zip(list1,list2) 
                                         if not any(isnan(float(z)) for z in x)]

>>> out
[([3, 7, 8], 2), ([1, 1, 1], 3)]

现在解压缩out以获得所需的输出:

>>> list1_clean, list2_clean = map(list, zip(*out))
>>> list1_clean
[[3, 7, 8], [1, 1, 1]]
>>> list2_clean
[2, 3]

帮助zip

>>> print zip.__doc__
zip(seq1 [, seq2 [...]]) -> [(seq1[0], seq2[0] ...), (...)]

Return a list of tuples, where each tuple contains the i-th element
from each of the argument sequences.  The returned list is truncated
in length to the length of the shortest argument sequence.

itertools.izip如果您想要一个内存高效的解决方案,您可以使用它,因为它返回一个迭代器。

于 2013-06-19T15:53:42.393 回答
2

你可以简单地这样做:

ans = [(x,y) for x,y in zip(list1,list2) if all(~isnan(x))]

#[(array([ 3.,  7.,  8.]), 2), (array([ 1.,  1.,  1.]), 3)]

您可以从中提取每个值:

l1, l2 = zip(*ans) 

#l1 = (array([ 3.,  7.,  8.]), array([ 1.,  1.,  1.]))
#l2 = (2,3)

建议使用izipfromitertools模块,它使用迭代器,可以根据您的问题节省大量内存。

而不是~你可以使用numpy.logical_not(),这可能更具可读性。

欢迎来到 Python!

于 2013-06-19T15:57:18.177 回答
0

这应该有效。我们检查一个数字是否为 NaN 或不使用math.isnan.

我们插入一个元素list1_cleanlist2_clean如果原始列表中的元素都不是NaN. 为了检查这一点,我们使用any返回True可迭代的任何元素是否为的函数True

>>> list1 = [[1, 2, float('NaN')], [3, 7, 8], [1, 1, 1], [10, -1, float('NaN')]]
>>> list2 = [1, 2, 3, 4]
>>> from math import isnan
>>> list1_clean = [elem for elem in list1 if not any([isnan(element) for element in elem])]
>>> list1_clean
[[3, 7, 8], [1, 1, 1]]
>>> list2_clean = [list2[index] for index, elem in enumerate(list1) if not any([isnan(element) for element in elem])]
>>> list2_clean
[2, 3]

为了使它更小并避免使用zip你可以做的,

>>> cleanList = [(elem, list2[index]) for index, elem in enumerate(list1) if not any([isnan(element) for element in elem])]
>>> cleanList
[([3, 7, 8], 2), ([1, 1, 1], 3)]
>>> list1_clean = [elem[0] for elem in cleanList]
>>> list2_clean = [elem[1] for elem in cleanList]

any功能->

any(...)
    any(iterable) -> bool

    Return True if bool(x) is True for any x in the iterable.

isnan功能->

isnan(...)
    isnan(x) -> bool

    Check if float x is not a number (NaN).
于 2013-06-19T15:56:19.133 回答