我想从 Pubchem 数据库中提到的所有 IUPAC 名称中构建一定长度的前缀和后缀列表,这样我就可以在我的项目中进一步使用它们作为一个功能。所以我想要文本文件中的所有 IUPAC 化学名称或我可以提取这些列表的某种格式。
Thanks.
我想从 Pubchem 数据库中提到的所有 IUPAC 名称中构建一定长度的前缀和后缀列表,这样我就可以在我的项目中进一步使用它们作为一个功能。所以我想要文本文件中的所有 IUPAC 化学名称或我可以提取这些列表的某种格式。
Thanks.
听起来你需要像这个Nist 物种列表这样的东西
您也可以在Webbook中搜索大部分内容,但我未能找到完整集的下载链接。
在我们的实验室中,我们得到了一个带有质谱数据库的 Cd(?),其中包含(完整的?-嗯,它有 250.000 种物质)数据库作为文本文件。也许你可以通过一些供应商来获得。
pubchem 站点让您可以通过 ftp 下载他们的数据转储。为什么不使用它?
PubChem 数据可以通过 ftp 从 PubChem 站点下载。可在此处获得可用数据的完整描述:https ://pubchemdocs.ncbi.nlm.nih.gov/downloads
对于 IUPAC 名称问题特别感兴趣,可从 ftp 站点的“Compound Extras”部分下载数据:ftp: //ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/
此位置的 README-Extras 文件详细描述了数据。对于 IUPAC 名称,提供了以下信息:
CID-IUPAC.gz:
这是所有 CID 及其计算的 IUPAC 名称的列表。它是一个 gzip 压缩的文本文件,每行都有 CID、制表符、IUPAC。请注意,名称可能包含 UTF8 字符。
今天(2020 年 4 月 23 日)的下载包含 102,586,778 行。信息摘录如下所示。
> head CID-IUPAC
1 3-acetyloxy-4-(trimethylazaniumyl)butanoate
2 (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3 5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4 1-aminopropan-2-ol
5 (3-amino-2-oxopropyl) dihydrogen phosphate
6 1-chloro-2,4-dinitrobenzene
7 9-ethylpurin-6-amine
8 2,3-dihydroxy-3-methylpentanoic acid
9 (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11 1,2-dichloroethane