我已经搜索了网络,似乎找不到合适的例子,所以我想我会问......(顺便说一句,这对我来说大部分是新的 - 不是全部,只是大多数。)
问题:尝试将已发布的引文数据的 bio/python 嵌套字典(或 xml)转换为平面(标准化)结构,例如 sqlite。引文数据是使用 biopython 从 pubmed 获取的,并被解析为字典,但如果需要,也可以作为 xml 检索。
并非所有引文都具有所有字段/键,并且并非所有字段/键都具有相同数量的项目(作者、网格术语、参考文献等),并且理解这是规范化过程的一部分。
这就是我的实际理解结束的地方。
也就是说,我认为这个过程应该是这样的:首先删除/规范化所有唯一字段(每篇论文有 1 个字段,例如标题、摘要、日期、引文等......,但不要说从属关系,因为那将是链接到第一作者)。没有摘要的论文可以填空吗?
然后继续说,作者并再次使用 PMID 作为 fk 创建一个单独的表,然后对单独表中的各种其他字段/键/项目执行相同的操作,例如网格标题、EC 编号、参考等...
有没有办法从主字典中删除(弹出?)键/项目,以便我可以直观地看到已完成/需要完成的操作(显然离开 PMID)?
再次,如果我要向初学者提出一个明显的问题,请提前道歉-我确实理解您不能将嵌套结构放入平坦的空间中-只是寻找解决此问题的最不愚蠢的方法,并希望有一个这将使我能够确保正确捕获所有内容。
非常感谢,克里斯