问题标签 [cheminformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
281 浏览

python - 如何生成 ECFP 哈希折叠数据?

我正在尝试将化学结构转换为 ECFP 数据。购买,我的折叠步骤有问题。

我通过 D. Rogers 和 M. Hahn 的论文(J. Chem. Inf. Model., Vol. 50, No. 5, 2010)了解了生成 ECFP 数据的所有过程

我在 python 中使用了一个小指模块来计算每个分子的 ECFP。(https://github.com/ubccr/pinky/blob/master/pinky/fingerprints/ecfp.py

该函数的输出如下

我知道它是什么以及它意味着什么。

但我不知道如何将此数据转换为二进制数据形式。

在本网站(https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md)中,将上述标识符转换为定长位串(折叠过程)

如何将上述原子标识符转换为定长位串?

任何人都可以为 ECFP 方法建议一个合适的哈希函数吗?

0 投票
1 回答
86 浏览

python-3.x - 将 pandas 的化学式列转换为 SMILES

我想知道是否有办法从看起来像这样的熊猫数据框开始获取 SMILES 字符串:

基本上,我想使用一些图神经网络架构 (GraphConv) 执行回归任务(预测大量化合物的带隙值),但我无法访问 SMILES 信息。对此有何建议?非常感谢!

0 投票
1 回答
106 浏览

python - 使用 RDKit 将 SEQUENCE 转换为 SMILES 的问题

我有一个酶序列数据集和一个要预测的目标变量。
我正在做的过程是将序列转换为微笑,然后为机器学习模型获取数字输入。
问题是:rdkit 无法转换某些序列,但不是全部。In this case the transformation was stopped for index = 5 which corresponds to the following sequence: 'PQITLWQRPIVTIKIGGQLIEALLDTGADDTVLEXXNLPGRWKPKXIGGIGGFXKVRQYDQVPIEIXGHKTXSTVLVGPTPVNIIGRNLMTQIGCTLNFPISPIETVPVKLKPGMDGPKXKQWPLTEEKIKALMEICKELEEEGKISKIGPENPYNTPVFAIKKKNSTKWRKLVDFRELNKRTQDFWEVQLGIPHPAGLKRKKSVTVLDVGDAYFSIPLDKDFRKYTAFTIPSINNETPGIRYQYNVLPQGWKGSPAIFQSSMTKILEPFRKQNPDIVIYQYVDDLYVGSDLEIEQHRTKIKELRQYLWKWGFYTPDXKHQEEPPFHWXGYELHPDKWTVQPIVLPEKESWTVNDIQKLVGKLNWASQIYAGIKVKQLCKLLRG' 在此处输入图像描述

0 投票
2 回答
76 浏览

python - 如何从随意的 .dat 文件创建 Pandas df?

我有一个看起来像这样的 .dat 文件。

这个 .dat 文件似乎是随意创建的。据我所知,这些列由不同数量的空格分隔。在文件的下方,一些行还有一个额外的注释列。我需要将其读入 Pandas 数据框。我努力了...

然后引发错误说“发生异常:ValueError 长度不匹配:预期轴有 1 个元素,新值有 4 个元素”

我期待一个错误,但这使它看起来只有 1 列。我完全不知所措,我希望有人能提供帮助。谢谢

编辑:额外的列有一个分隔空间。

0 投票
2 回答
395 浏览

regression - 如何从 SMILES 中获取分子结构信息

我的问题是:是否有任何算法可以将 SMILES 结构转换为拓扑指纹?例如,如果甘油是输入,则答案将是 3 x -OH、2x -CH2 和 1x -CH。

我正在尝试构建一个 python 脚本,可以使用人工神经网络预测混合物的密度。作为输入,我希望从 SMILES 结构开始获得分子的结构/指纹。

我已经熟悉 -rdkit 和 morganfingerprint 但这不是我想要的。我也知道我可以在 rdkit 中使用“匹配子结构”搜索,但是我必须定义所有不同的子组。有没有更方便/更短的方法?

0 投票
1 回答
416 浏览

python - 如何将 RDKit 一致性对象保存到 sdf 文件中?

我为一个分子生成了一堆构象异构体。对于每个符合条件,我想将坐标保存在 SDF 文件中。我尝试了以下方法,但是 sdf 文件中的坐标与conformer的坐标不同。

我明白了

但是当我试图将具有这种构象结构的分子保存到 SDF 文件中时,

我得到以下信息:

分子 sdf 文件中的坐标与conformer_i. 有人对这个问题有见解吗?谢谢!

0 投票
1 回答
55 浏览

rdkit - 使用 RDkit 进行化合物分类

如何使用 RDkit 或其他库对化合物进行计算分类?例如,如何判断一种化合物是卤化物、胺还是酒精?RDkit 是否具有此类任务的内置功能?

0 投票
1 回答
107 浏览

python - rdkit ArgumentError:rdkit.Chem.rdMolDescriptors.GetAtomPairFingerprint(str) 中的 Python 参数类型与 C++ 签名不匹配:

我目前正在处理肽数据,并试图从肽数据集中提取原子对指纹,以用于机器学习分类器。

我已将我的肽序列设置为一个列表(所有这些序列都转换为 SMILES 字符串),现在正在遍历该列表以为每个肽创建一个指纹。但我不知道出了什么问题。注意:我正在使用 Google Colab 来完成此操作。

这是我的代码:

任何意见是极大的赞赏。谢谢!

0 投票
1 回答
53 浏览

font-face - 更改 rdkit 中原子标签的字体

我正在尝试更改 RDKIT 中原子标签的字体类型。默认字体类型是“sans”。我在 colab 上运行了这段代码:

但似乎字体类型没有改变,当我尝试其他字体类型时也是如此。怎么了?

0 投票
1 回答
38 浏览

python - RDKit 的分子指纹:Fingerprints.FingerprintMols 和 Chem.RDKFingerprint 有什么区别?

谁能告诉我什么时候应该使用FingerprintMols.FingerprintMol而不是Chem.RDKFingerprint制作分子指纹?这是两个选项:

FingerprintMols.FingerprintMol更有效率吗?