7

是否有一种本机 numpy 方法来转换布尔值的字符串表示形式的数组,例如:

['True','False','True','False']

对于我可以用于屏蔽/索引的实际布尔数组?我可以做一个 for 循环遍历并重建数组,但对于大型数组,这很慢。

4

3 回答 3

8

您应该能够进行布尔比较,IIUC,无论dtype是字符串还是object

>>> a = np.array(['True', 'False', 'True', 'False'])
>>> a
array(['True', 'False', 'True', 'False'], 
      dtype='|S5')
>>> a == "True"
array([ True, False,  True, False], dtype=bool)

或者

>>> a = np.array(['True', 'False', 'True', 'False'], dtype=object)
>>> a
array(['True', 'False', 'True', 'False'], dtype=object)
>>> a == "True"
array([ True, False,  True, False], dtype=bool)
于 2013-06-05T16:16:46.360 回答
2

我从 Eric 那里获得了灵感,找到了一种比 DSM 更快的方法,尽管这种改进在较小的值列表中最为明显;在非常大的值下,迭代本身的成本开始超过在创建 numpy 数组期间而不是之后执行真值测试的优势。is使用and进行测试==(对于字符串被实习的情况与它们可能不被实习的情况,asis不适用于非实习的字符串。尽管'True'可能会成为脚本中的文字,但它应该被实习)表明,虽然我的版本 with==比 with 慢is,它仍然比 DSM 的版本快得多。

测试设置:

import timeit
def timer(statement, count):
    return timeit.repeat(statement, "from random import choice;import numpy as np;x = [choice(['True', 'False']) for i in range(%i)]" % count)

>>> stateIs = "y = np.fromiter((e is 'True' for e in x), bool)"
>>> stateEq = "y = np.fromiter((e == 'True' for e in x), bool)"
>>> stateDSM = "y = np.array(x) == 'True'"

对于 1000 个项目,更快的语句大约需要 DSM 的 66% 的时间:

>>> timer(stateIs, 1000)
[101.77722641656146, 100.74985342340369, 101.47228618107965]
>>> timer(stateEq, 1000)
[112.26464996250706, 112.50754567379681, 112.76057346127709]
>>> timer(stateDSM, 1000)
[155.67689949529995, 155.96820504501557, 158.32394669279802]

对于较小的字符串数组(数百个而不是数千个),经过的时间少于 DSM 的 50%:

>>> timer(stateIs, 100)
[11.947757485669172, 11.927990253608186, 12.057855628259858]
>>> timer(stateEq, 100)
[13.064947253943501, 13.161545451986967, 13.30599035623618]
>>> timer(stateDSM, 100)
[31.270060799078237, 30.941749748808434, 31.253922641324607]

当每个列表包含 50 个项目时,超过 25% 的 DSM:

>>> timer(stateIs, 50)
[6.856538342483873, 6.741083326021908, 6.708402786859551]
>>> timer(stateEq, 50)
[7.346079345032194, 7.312723444475523, 7.309259899921017]
>>> timer(stateDSM, 50)
[24.154247576229864, 24.173593700599667, 23.946403452288905]

对于 5 个项目,大约 11% 的帝斯曼:

>>> timer(stateIs, 5)
[1.8826215278058953, 1.850232652068371, 1.8559381315990322]
>>> timer(stateEq, 5)
[1.9252821868467436, 1.894011299061276, 1.894306935199893]
>>> timer(stateDSM, 5)
[18.060974208809057, 17.916322392367874, 17.8379771602049]
于 2013-06-05T16:17:28.227 回答
0

这够好吗?

my_list = ['True', 'False', 'True', 'False']
np.array(x == 'True' for x in my_list)

它不是原生的,但如果你从非原生列表开始,那真的没关系。

于 2013-06-05T16:13:27.450 回答