我是 python 新手,我正在尝试使用 pdist 计算数据框列中元素的压缩距离矩阵。
这就是数据的样子,我想使用“序列”列:
In [90]: print(a_10)
Sequence Occurrences Size
12 FJGKFLDKFJ 4185 10
13 FJGKFLEKFJ 4074 10
15 FJGEELKJFD 3392 10
16 AFLJSFLSKD 3240 10
22 EOAIJFFEOF 2652 10
... ... ... ...
29963 ELFKAJLFKA 1 10
29975 VEOIAJSEIJ 1 10
29983 ELKSJFLSEK 1 10
29989 ESKJFSLEKF 1 10
30002 ECSKCJSOEC 1 10
[3369 rows x 3 columns]
首先我重塑它:
v = a_10["Sequence"].to_numpy().reshape(-1,1)
然后我尝试应用 pdist:
matrix = pdist(v, "euclidean")
但我收到以下错误:
ValueError: could not convert string to float: 'FJGKFLDKFJ'
有没有人对如何克服这个问题提出建议?先感谢您。