我正在尝试将化学结构转换为 ECFP 数据。购买,我的折叠步骤有问题。
我通过 D. Rogers 和 M. Hahn 的论文(J. Chem. Inf. Model., Vol. 50, No. 5, 2010)了解了生成 ECFP 数据的所有过程
我在 python 中使用了一个小指模块来计算每个分子的 ECFP。(https://github.com/ubccr/pinky/blob/master/pinky/fingerprints/ecfp.py)
该函数的输出如下
{6456320269923861509: 1,
-3040533427843102467: 2,
-7329542376511023568: 1,
-5821485132112031149: 1,
-643847807504931861: 1,
3054809300354049582: 1,
-3679727481768249355: 1,
-2240115528993944325: 1,
5159885938473603439: 1,
1268207003089618622: 1,
267156486644197995: 1,
6401915128722912935: 1,
-8944122298402911035: 1,
-7116035920000285502: 1}
我知道它是什么以及它意味着什么。
但我不知道如何将此数据转换为二进制数据形式。
在本网站(https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md)中,将上述标识符转换为定长位串(折叠过程)
如何将上述原子标识符转换为定长位串?
任何人都可以为 ECFP 方法建议一个合适的哈希函数吗?