0

我想从 Pubchem 数据库中提到的所有 IUPAC 名称中构建一定长度的前缀和后缀列表,这样我就可以在我的项目中进一步使用它们作为一个功能。所以我想要文本文件中的所有 IUPAC 化学名称或我可以提取这些列表的某种格式。

                         Thanks. 
4

3 回答 3

0

听起来你需要像这个Nist 物种列表这样的东西

您也可以在Webbook中搜索大部分内容,但我未能找到完整集的下载链接。

在我们的实验室中,我们得到了一个带有质谱数据库的 Cd(?),其中包含(完整的?-嗯,它有 250.000 种物质)数据库作为文本文件。也许你可以通过一些供应商来获得。

于 2011-10-01T08:50:14.767 回答
0

pubchem 站点让您可以通过 ftp 下载他们的数据转储。为什么不使用它?

于 2011-10-05T08:39:15.280 回答
0

PubChem 数据可以通过 ftp 从 PubChem 站点下载。可在此处获得可用数据的完整描述:https ://pubchemdocs.ncbi.nlm.nih.gov/downloads

对于 IUPAC 名称问题特别感兴趣,可从 ftp 站点的“Compound Extras”部分下载数据:ftp: //ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/

此位置的 README-Extras 文件详细描述了数据。对于 IUPAC 名称,提供了以下信息:

CID-IUPAC.gz:

这是所有 CID 及其计算的 IUPAC 名称的列表。它是一个 gzip 压缩的文本文件,每行都有 CID、制表符、IUPAC。请注意,名称可能包含 UTF8 字符。

今天(2020 年 4 月 23 日)的下载包含 102,586,778 行。信息摘录如下所示。

> head CID-IUPAC
1       3-acetyloxy-4-(trimethylazaniumyl)butanoate
2       (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3       5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4       1-aminopropan-2-ol
5       (3-amino-2-oxopropyl) dihydrogen phosphate
6       1-chloro-2,4-dinitrobenzene
7       9-ethylpurin-6-amine
8       2,3-dihydroxy-3-methylpentanoic acid
9       (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11      1,2-dichloroethane
于 2020-04-23T12:02:16.263 回答