问题标签 [genetics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
enums - 在 Go 中表示枚举的惯用方式是什么?
我试图表示一个简化的染色体,它由 N 个碱基组成,每个碱基只能是{A, C, T, G}
.
我想用枚举形式化约束,但我想知道在 Go 中模拟枚举最惯用的方式是什么。
r - 为什么 GenABEL 和 Plink 中的 Hardy-Weinberg 测试不同?
当我使用这个 Plink 命令时:
将为每个标记创建一个具有不同 p 值的新文件 filename.hwe,相比之下GenABEL
:
为什么我会得到相同标记的其他 p 值?
linux - 如何编辑 300 GB 的文本文件(基因组数据)?
我有一个 300 GB 的文本文件,其中包含超过 25 万条记录的基因组数据。有一些记录包含不良数据,我们的基因组学程序“Popoolution”允许我们用星号注释掉“不良”记录。我们的问题是我们找不到可以加载数据的文本编辑器,以便我们可以注释掉不良记录。有什么建议么?我们有 Windows 和 Linux 机器。
更新:更多信息
程序 Popoolution ( https://code.google.com/p/popoolation/ ) 在到达“坏”记录时崩溃,为我们提供了行号,然后我们可以将其注释掉。具体来说,我们从 Perl 收到一条消息,上面写着“F#€%& Scaffolding”。该手册建议我们可以使用星号来注释掉坏行。可悲的是,我们将不得不多次重复这个过程......
再想一想……有没有一种方法可以让我们在不打开整个文本文件的情况下将星号添加到行中。考虑到我们将不得不重复该过程未知次数,这可能非常有用。
r - 如何根据不断变化的规范比较两个表
我有两个表,每个表的开头如下:
表 1:所有 SNP
表 2:每个基因的最佳 SNP
表 1 显示了具有相应 SNP 的基因列表。可以看出,同一个基因在表中的许多地方重复出现。
表 2 是过滤表 1 中每个基因的所有 SNP 后的结果,每个基因只保留一个SNP(根据 p 值保留最佳 SNP,尽管这里不相关)。
所以换句话说,表 1 中有一些 SNP 没有包含在表 2 中,因为表 2 只保留了每个基因的最佳 SNP。
对于每个基因,我想使用 R 来比较 2 个表并输出未包含在表 2 中的该基因的 SNP。所以比较的规范是基因名称,由于表中有很多基因,它会不断变化。
r - 2个表之间的高级数据匹配
我是 R 新手,我需要有关处理此问题的建议:
我有 2 张桌子。表的开头如下所示:
表格1:
表 2:
表 1 包含每个基因的 SNP 的完整列表。表 2 包含表 1 中出现的每个基因的最佳 SNP 和相应的最佳 Pval。
我想做以下事情:将表 1 中的每个基因匹配到表 2,然后从表 2 中复制 Best_SNP 和 Best_Pval,并将它们粘贴到表 1 中该基因的 Best_SNP 和 Best_Pval 列下。棘手的部分是,在表 1 中,每个基因都随机重复了不同的行数。例如,第二个基因ENSG00000064419重复2行,ENSG00000072682重复3行。所以代码需要过滤基因的名称,对于同一个基因,只复制一次Best_SNP和Best_Pval 。
因此,对于基因 ENSG00000072682,在 3 行中,只有看起来包含该基因的第一行需要填写 Best_SNP 和 Best_Pval 列。我不希望其余 2 行重复也有列 Best_SNP并填写 Best_Pval。这样更容易看到每个基因的开始和结束位置。
c - 用 typedef 和 enum 表示 C 中的 DNA 字母表
我正在编写一个处理基因序列的程序,我想将每个核苷酸存储在一个字节中,其中每个位代表遗传字母表中的一个字母A,C,G,T
(显然只有一半的位会被使用)。
我的编码如下:
这里,R
是嘌呤,可以代表A
or G
,Y
是嘧啶 ( C
or T
),并且N
可以代表任何一个字母。
typedef
在 C 中使用and定义这种格式的最佳方法是什么enum
?我想定义一种类型,允许我按名称将字母分配给变量,例如
编辑:感谢您的输入。我绝对有理由不想要字符串,但感谢您的建议。确实,从逻辑上讲,N
应该是,但对于我的应用程序来说,将其表示为以上都不是0b1111
更有意义。
请注意,我确实知道如何完成这项工作,但我不会经常打破 ol' C,我宁愿寻找最优雅的解决方案。我想如果我想保留NUL
字节,那么我可以在0b10000
任何地方添加到我的代码中。
我认为两种可能的方法是一个enum
或一些#define
宏。然而,枚举是int
,我需要一个char
,那么宏是更好的解决方案吗?
r - R编程,读入和运行多个文件
我正在使用来自一些基因分析的名为COLONY的程序。Colony 有一个 R 包 ( rcolony )。
我需要做的是将文本文件从目录(“C:/GenSoftware/Colony/datFiles”)移动到另一个目录(“C:/GenSoftware/Colony/”)重命名为“Colony2.dat”,运行colony,然后完成后对原始目录中的所有文件重复该过程。
这是我们迄今为止所能想到的。问题是它似乎试图同时运行每个文本文件,而不是循环浏览它们。
任何帮助将非常感激。提前致谢。
r - 如何查询 SNP 的遗传学数据库(最好使用 R)?
从几个人类单核苷酸多态性 (SNP) 开始,我如何查询所有已知 SNPS 的数据库,以便我可以生成 1000 个左右最接近的 SNPS 的列表(data.table 或 csv 文件),天气与否 SNP 是一个 tagSNP,次要等位基因频率 (MAF) 是多少,它距离起始 SNPS 有多少个碱基?
我更愿意在 R 中执行此操作(尽管不必如此)。我应该使用哪个数据库?我唯一的出发点是列出起始的 snps(例如 rs3091244 、 rs6311 等)。
我确信有一个不错的简单 Bioconductor 包可以作为我的起点。但是什么?你做过吗?我想它可以用大约 3 到 5 行代码来完成。
r - 循环用于根据与其他非 NA 行的接近程度来获取行的总和
我有一个包含 2 个重要列的数据集,Position
并且Count
. 共有 34,532 行,但列中只有 457 个非 NA 值Count
(列中的每个单元格Position
都有一个值)。我需要编写一个循环来向下行进,如果有 2 行,Count
而它们之间只有 1NA
行,则将这两个值相加并仅打印一行,其中包含相加的 Count 值和对应的 Position 值较大的 Count 值,从而使三行合二为一。例如:
会成为
在这一步之后,我还需要编写另一个脚本来向下行进并在 Count 中的非 NA 行之间查找只有两个 NA 的行。这将使以前的数据成为
理想情况下,我想要一个可以灵活调整为可以自由更改的相邻非 NA 值之间的 NA 数量的循环。我将不胜感激对此的任何见解。