0

我是 python 新手,我正在尝试使用 pdist 计算数据框列中元素的压缩距离矩阵。

这就是数据的样子,我想使用“序列”列:

In [90]: print(a_10)
        Sequence  Occurrences  Size
12     FJGKFLDKFJ         4185    10
13     FJGKFLEKFJ         4074    10
15     FJGEELKJFD         3392    10
16     AFLJSFLSKD         3240    10
22     EOAIJFFEOF         2652    10
...           ...          ...   ...
29963  ELFKAJLFKA            1    10
29975  VEOIAJSEIJ            1    10
29983  ELKSJFLSEK            1    10
29989  ESKJFSLEKF            1    10
30002  ECSKCJSOEC            1    10

[3369 rows x 3 columns]

首先我重塑它:

v = a_10["Sequence"].to_numpy().reshape(-1,1)

然后我尝试应用 pdist:

matrix = pdist(v, "euclidean")

但我收到以下错误:

ValueError: could not convert string to float: 'FJGKFLDKFJ'

有没有人对如何克服这个问题提出建议?先感谢您。

4

0 回答 0