对于我的论文,我正在研究机器学习框架中的副作用预测,并且正在研究 SIDER ( http://sideeffects.embl.de/download/ ) 上可用的数据。如果您打开 README 文件,您将看到的第一个描述是:
meddra_all_se.tsv.gz
1 和 2:STITCH 复合 id(平面/立体,见上文)
3:标签上的 UMLS 概念
4:MedDRA 概念类型(LLT = 最低级别术语,PT = 首选术语;在在少数情况下,该术语既不是 LLT 也不是 PT)
5:MedDRA 的 UMLS 概念 ID 术语
6:副作用名称
我无法真正理解平面和立体复合 ID 之间的区别;是化学描述符吗?是符号问题吗?此外,我认为相同化合物的两个 IDS 可以在 PubChem 上产生相似的结果,但事实并非如此。例如,在数据集中,第一个化合物的 STITCH id 是 CID100000085 和 CID000010917;在 PubChem 上,第一个是芳香族化合物,第二个不是,它们大不相同。
感谢所有愿意花时间帮助我的人。