我正在尝试代表我机构数据库中的遗传变异数据。我们发现了与参考等位基因、突变等位基因、染色体、位置、名称、可能的影响、基因、基因中的位置等相关的遗传变异。
虽然对于问题上下文有时有用不是必需的,但我将使用 django 构建它,并且 db 后端将是 PostgreSQL 或 MySQL(这里也欢迎关于选择的建议,尽管不是问题的主要焦点)
为了正确地表示这些信息,我已经着手设计一个关系数据库。但是,我在定义最有效的结构时遇到了问题。我可以表示如下:
变异属于多对一关系中的基因。即一个基因可以有许多变体,但一个变体通常不能跨越一个以上的基因。(但有时这可能发生在大型 CNV 或两个基因重叠的情况下,所以可能是多对多关系???)
在个体中也发现了变异。个体具有基因型,这只是变体的各种等位基因组合的两个副本。我根本不确定最好的方法,也许是变体和个体的联合主键,并将基因型记录为突变等位基因的数量(例如 0,1,2)???
所以我的问题是(对所有的序言和生物谈话感到抱歉)我们认为哪种方式是最好的,或者对这三件事有更好的设计:变体——我想要存储信息的主要内容,基因和个体- 对于任何下游分析都是必不可少的。
非常感谢任何建议。再次为这个问题的短暂性感到抱歉。