python - 如何计算熊猫列中字符串的字符数

Question

我有一个具有以下结构的数据框：

prod_sec     
A    
AA    
AAAAAAAAAAB    
AAAABCCCAA    
AACC   
ABCCCBAC

df = pd.DataFrame({'prod_sec': ['A','AA','AAAAAAAAAAB','AAAABCCCAA','AACC','ABCCCBAC']})

每个字符串都是由字母组成的序列（本例中为 A 到 C）。
我想为每个字母创建一个列表，计算整个熊猫列中每个位置的出现次数。

例如，在第一个字符串中，A 仅在第一个位置/索引中，而不在其他位置。
在第二个字符串中，前两个位置的 A 不在其他位置
。在第三个字符串中，A 具有所有位置，直到最后一个位置。等等...
我想要按位置对列进行总计数。
以下是 A 的示例：

A            ->     [1,0,0,0,0,0,0,0,0,0,0]    
AA                  [1,1,0,0,0,0,0,0,0,0,0]
AAAAAAAAAAB   ->    [1,1,1,1,1,1,1,1,1,1,0] 
AAAABCCCAA          [1,1,1,1,0,0,0,0,0,0,1]
AACC                [1,1,0,0,0,0,0,0,0,0,0]
ABCCCBAC    ->      [1,0,0,0,0,0,1,0,0,0,0]

所以对于A，我想要一个类似于以下的输出...... A [6,4,2,2,1,1,2,1,1,1,0]
最后，我试图得到每个字符都有一行的矩阵。

                    [6,4,2,2,1,1,2,1,1,1,0]
                    [0,1,0,0,1,1,0,0,0,0,1]
                    [0,0,1,1,0,1,2,0,0,0,0]

score 1 · Accepted Answer

以下应该工作。您可以根据您的确切需求（numpy 数组、数据框、字典等）调整结果。如果您需要更多帮助，请告诉我。

max_length=max([len(i) for i in df.prod_sec])

d={'A':[0]*max_length, 'B':[0]*max_length, 'C':[0]*max_length}

for i in df.prod_sec:
    for k in range(len(i)):
        d[i[k]][k]+=1

result=pd.DataFrame.from_dict(d, orient='index')

python - 如何计算熊猫列中字符串的字符数

1 回答 1

Related

Reference