这个问题是许多学习生物信息学和 DNA 数据分析新手都在努力解决的问题:
假设我有 20 个具有相同列标题的表。每个表代表一个患者样本,每行代表一个在该样本中发生突变的基因座(位点)。每个位点由两列共同唯一标识 - 染色体编号和碱基编号(例如 1 和 43535、1 和 33456、1 和 3454353)。有几列给出了每个突变的不同特征,包括一个名为 Gene 的列,它给出了该位点的基因。一个基因中可以突变多个位点 - 这意味着 Gene 列可以在一个表中多次具有相同的值。
我想通过 Gene来同时查询所有这些表。我从 Gene 列输入一个值,我希望输出所有表(样本)的名称,其中基因名称存在于 Gene 列中,以及每个样本的整行(最好),这样我可以在一个输出页面上比较多个样本中该基因的突变特征。
我还想输入一个数字,比如 4,并希望输出一个在 20 名患者中至少有 4 名发生突变的基因列表(其名称出现在 20 个表中至少 4 个的“基因”列中的基因列表)。
做到这一点的“最简单方法”是什么?除了这两个之外,假设我想进行更灵活的查询,那么“最佳方式”是什么?
我是一名 MD,没有任何特定的软件专业知识,但我愿意投入必要的时间来构建这个查询系统。几行代码不会让我失望..
例如数据:
Func Gene ExonicFunc Chr Start End Ref Obs
exonic ACTRT2 nonsynonymous SNV 1 2939346 2939346 G A
exonic EIF4G3 nonsynonymous SNV 1 21226201 21226201 G A
exonic CSMD2 nonsynonymous SNV 1 34123714 34123714 C T
这只是列的三分之一。删除了多个列以适合此处的页面大小...
谢谢你。