1

我正在尝试使用 .astype() 函数将 int32 转换为字符串。我在尝试在 pandas 系列上使用转换时首先注意到这一点,但是当我使用 numpy 进行测试时,我看到了相同的行为,所以我假设 numpy 是根本原因。

In [0]: import numpy as np
In [1]: test = np.array([1, 22, 333, 4444])
In [2]: test.astype(str)
Out [2]: array(['1', '2', '3'],
              dtype='|S1')

为什么它默认为 S1 而不是 S4,正如我所期望的那样以捕获完整长度?看起来很简单,但也许我缺少一些东西?当我明确指定 S3(或更高版本)时,它可以正常工作:

In [3]: test.astype('S10')
Out [3]: array(['1', '22', '333', '4444'],
              dtype='|S10')

根据我在网上看到的示例,我似乎不必指定这种方式。我已经安装了 numpy 1.6.1。

4

2 回答 2

1

当您达到 65 个字符时,您还会遇到另一个障碍numpy,但 pandas 可以解决这个问题,因为每个str对象都存储为指向 Python 对象的不透明指针,而不是numpy.string_类型。

In [18]: from pandas.util.testing import rands

In [19]: s = Series([rands(120) for _ in range(10)])

In [20]: s
Out[20]:
0    LdeUwCKNFi4SWWfnAsKK3VIdDegy35lokoOr5DfCePoGn2...
1    xXmofyBFUfCiApbqNEDtJs6JhU0QAhIG8sQRCKkKMdTZuZ...
2    t3XcQFDQhg8BxAc9vFeo5Ky6beMxp9IGj54u3OzELR8lRf...
3    tWufKLo4OiW8lMpB8NiHzy0REAnAtAmLrDJyLzi1GBSRwS...
4    bysGao2rhiqxfmv54eDT6qcshlk0E7srrRLnuBDRRu7oVg...
5    AYIZFysXR9vispYQEfwqaZ20YYvR52pPkBtd2acOapK3Mv...
6    eLAwKopRuynrY75dn7vEfUnqhoSDLh5mGSBclFDaItwyxJ...
7    oj8ilX2EvhegAI4FvZQxJU0hTDR04aLySNdCXPmqOLa6CF...
8    5mEX5o23PMg5yWEE6bofk5tqzPCFNNCIn1v3ynYxicVXa8...
9    c2fS5Z1w7IxKq72x5KM8WhNChfrEJoFavdD1DQUJn4NCNP...
dtype: object

In [21]: s.astype(str).map(len)
Out[21]:
0    120
1    120
2    120
3    120
4    120
5    120
6    120
7    120
8    120
9    120
dtype: int64

In [22]: map(len, s.values.astype(str))
Out[22]: [64, 64, 64, 64, 64, 64, 64, 64, 64, 64]

公平地说numpy,这已在 pull request #3270中修复,并在 numpy 1.8 中修复。

编辑:解决最初的问题(将int数组转换为str数组),因为你已经标记了它,因为pandas你可以这样做

In [4]: s = Series([1, 22, 333, 4444])

In [5]: s
Out[5]:
0       1
1      22
2     333
3    4444
dtype: int64

In [6]: s.astype(str)
Out[6]:
0       1
1      22
2     333
3    4444
dtype: object

这适用于 1.7numpy之前的版本,但您必须升级到更高版本pandasf0c1bd. 或者你可以做

In [3]: s = Series([1, 22, 333, 4444])

In [4]: s.map(str)
Out[4]:
0       1
1      22
2     333
3    4444
dtype: object

它应该适用于pandas具有对象map方法的任何版本以及.Seriespandas

于 2013-08-15T00:31:48.827 回答
1

在 1.7.1 中它可以正常工作。这可能是一个错误。

In [11]: test = np.array([1, 22, 333, 4444])
In [12]: test.astype(str)
Out[12]: array(['1', '22', '333', '4444'], dtype='|S24')
In [13]: np.version.version
Out[13]: '1.7.1'
于 2013-08-15T00:09:39.307 回答