-1

5

0001 -417.031

C 1.04168,-0.05620,-0.07148 1.041682,-0.056200,-0.071481

H 2.15109,-0.05620,-0.07150 2.130894,-0.056202,-0.071496

H 0.67187、0.17923、-1.09059 0.678598、0.174941、-1.072044

H 0.67188、0.70866、0.64196 0.678613、0.694746、0.628980

H 0.67188、-1.05649、0.23421 0.678614、-1.038285、0.228641

8

0002 -711.117

C 0.99571、0.01149、-0.09922 0.995914、0.011511、-0.099221

C 2.51489、0.01148、-0.09922 2.514686、0.011466、-0.099226

H 0.61911、0.74910、-0.83887 0.597259、0.729877、-0.819596

H 0.61911、0.28325、0.90938 0.597259、0.276170、0.883106

H 0.61909,-0.99785,-0.36818 0.597278,-0.971531,-0.361167

H 2.89151、1.02083、0.16973 2.913322、0.994509、0.162719

H 2.89149,-0.26027,-1.10783 2.913341,-0.253192,-1.081553

H 2.89149, -0.72612, 0.64042 2.913341, -0.706900, 0.621148

这两个数据点来自化学数据库 GDB 13。我试图理解这些数字代表什么。我知道 5 和 8 是原子序数;0001 和 0002 是原子 ID;-417.031 和 711.117 是原子化能量。但是,我不太明白下面的数字是什么意思。但是,我很确定它们是 3 维空间中的几何表示。如果那是 3 维空间中的几何表示,那么为什么那里有 6 个数字。这6个数字怎么读?

我也在尝试使用 BOB 表示来改造数据,有什么方法可以代替硬编码?如果没有,我正在使用 R,R 能做到吗?

4

1 回答 1

0

看看 ‎<em>Int 中的原始论文。J. 量子化学., 2015 , 115 , 1058-1073 ( DOI )。

扩展的 XYZ 格式在文章的图 7 中进行了解释。

没错,第一行表示原子数k,而第二行由标识符和特定分子的原子化能量组成。

接下来的k行包含两组笛卡尔坐标(在 Angström 中)。左侧块包含来自力场计算 (UFF)的x、y、z坐标,而右侧的坐标来自 DFT 计算。

读取和转换各种格式的坐标文件的常用工具是Open Babel。查看J. Cheminformatics中的随附论文,2013 年3 :33 ( DOI )

Open Babel存在各种绑定,显然,也有一个r看看

我刚刚使用 Open Babel 2.3.2 对 Mathias Rupp 的论文补充数据中的第一个条目进行了快速测试:

obabel -ixyz c1.xyz -oxyz -O c1a.xyz

显然,只读入了左边的坐标块!如果您怀疑 UFF 和 DFT 计算中的坐标存在显着差异,那么您可能只能靠自己了。但是,鉴于文件格式已记录在案,这应该不是主要问题。


如果您不介意评论,那么您的问题的标题有些误导。有问题的数据仅与 GDB-13 远程相关。据我所知,Jean-Louis Reymond 的 GDB 文件不包含任何坐标。它们是大型集合 SMILES 字符串,必须为每个条目生成坐标。

于 2017-10-11T16:23:38.970 回答