问题标签 [cheminformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何生成 ECFP 哈希折叠数据?
我正在尝试将化学结构转换为 ECFP 数据。购买,我的折叠步骤有问题。
我通过 D. Rogers 和 M. Hahn 的论文(J. Chem. Inf. Model., Vol. 50, No. 5, 2010)了解了生成 ECFP 数据的所有过程
我在 python 中使用了一个小指模块来计算每个分子的 ECFP。(https://github.com/ubccr/pinky/blob/master/pinky/fingerprints/ecfp.py)
该函数的输出如下
我知道它是什么以及它意味着什么。
但我不知道如何将此数据转换为二进制数据形式。
在本网站(https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md)中,将上述标识符转换为定长位串(折叠过程)
如何将上述原子标识符转换为定长位串?
任何人都可以为 ECFP 方法建议一个合适的哈希函数吗?
python-3.x - 将 pandas 的化学式列转换为 SMILES
我想知道是否有办法从看起来像这样的熊猫数据框开始获取 SMILES 字符串:
基本上,我想使用一些图神经网络架构 (GraphConv) 执行回归任务(预测大量化合物的带隙值),但我无法访问 SMILES 信息。对此有何建议?非常感谢!
python - 使用 RDKit 将 SEQUENCE 转换为 SMILES 的问题
我有一个酶序列数据集和一个要预测的目标变量。
我正在做的过程是将序列转换为微笑,然后为机器学习模型获取数字输入。
问题是:rdkit 无法转换某些序列,但不是全部。In this case the transformation was stopped for index = 5 which corresponds to the following sequence: 'PQITLWQRPIVTIKIGGQLIEALLDTGADDTVLEXXNLPGRWKPKXIGGIGGFXKVRQYDQVPIEIXGHKTXSTVLVGPTPVNIIGRNLMTQIGCTLNFPISPIETVPVKLKPGMDGPKXKQWPLTEEKIKALMEICKELEEEGKISKIGPENPYNTPVFAIKKKNSTKWRKLVDFRELNKRTQDFWEVQLGIPHPAGLKRKKSVTVLDVGDAYFSIPLDKDFRKYTAFTIPSINNETPGIRYQYNVLPQGWKGSPAIFQSSMTKILEPFRKQNPDIVIYQYVDDLYVGSDLEIEQHRTKIKELRQYLWKWGFYTPDXKHQEEPPFHWXGYELHPDKWTVQPIVLPEKESWTVNDIQKLVGKLNWASQIYAGIKVKQLCKLLRG'
python - 如何从随意的 .dat 文件创建 Pandas df?
我有一个看起来像这样的 .dat 文件。
这个 .dat 文件似乎是随意创建的。据我所知,这些列由不同数量的空格分隔。在文件的下方,一些行还有一个额外的注释列。我需要将其读入 Pandas 数据框。我努力了...
然后引发错误说“发生异常:ValueError 长度不匹配:预期轴有 1 个元素,新值有 4 个元素”
我期待一个错误,但这使它看起来只有 1 列。我完全不知所措,我希望有人能提供帮助。谢谢
编辑:额外的列有一个分隔空间。
regression - 如何从 SMILES 中获取分子结构信息
我的问题是:是否有任何算法可以将 SMILES 结构转换为拓扑指纹?例如,如果甘油是输入,则答案将是 3 x -OH、2x -CH2 和 1x -CH。
我正在尝试构建一个 python 脚本,可以使用人工神经网络预测混合物的密度。作为输入,我希望从 SMILES 结构开始获得分子的结构/指纹。
我已经熟悉 -rdkit 和 morganfingerprint 但这不是我想要的。我也知道我可以在 rdkit 中使用“匹配子结构”搜索,但是我必须定义所有不同的子组。有没有更方便/更短的方法?
python - 如何将 RDKit 一致性对象保存到 sdf 文件中?
我为一个分子生成了一堆构象异构体。对于每个符合条件,我想将坐标保存在 SDF 文件中。我尝试了以下方法,但是 sdf 文件中的坐标与conformer的坐标不同。
我明白了
但是当我试图将具有这种构象结构的分子保存到 SDF 文件中时,
我得到以下信息:
分子 sdf 文件中的坐标与conformer_i
. 有人对这个问题有见解吗?谢谢!
rdkit - 使用 RDkit 进行化合物分类
如何使用 RDkit 或其他库对化合物进行计算分类?例如,如何判断一种化合物是卤化物、胺还是酒精?RDkit 是否具有此类任务的内置功能?
python - rdkit ArgumentError:rdkit.Chem.rdMolDescriptors.GetAtomPairFingerprint(str) 中的 Python 参数类型与 C++ 签名不匹配:
我目前正在处理肽数据,并试图从肽数据集中提取原子对指纹,以用于机器学习分类器。
我已将我的肽序列设置为一个列表(所有这些序列都转换为 SMILES 字符串),现在正在遍历该列表以为每个肽创建一个指纹。但我不知道出了什么问题。注意:我正在使用 Google Colab 来完成此操作。
这是我的代码:
任何意见是极大的赞赏。谢谢!
font-face - 更改 rdkit 中原子标签的字体
我正在尝试更改 RDKIT 中原子标签的字体类型。默认字体类型是“sans”。我在 colab 上运行了这段代码:
但似乎字体类型没有改变,当我尝试其他字体类型时也是如此。怎么了?
python - RDKit 的分子指纹:Fingerprints.FingerprintMols 和 Chem.RDKFingerprint 有什么区别?
谁能告诉我什么时候应该使用FingerprintMols.FingerprintMol
而不是Chem.RDKFingerprint
制作分子指纹?这是两个选项:
FingerprintMols.FingerprintMol
更有效率吗?