问题标签 [genome]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何快速比较两个文件?
我需要能够比较两个坐标(一行中的第二个和第三个单词)以查看它们重叠的位置。现在,我的代码做到了,但它的速度很慢。到目前为止,对于一个 10000 行的文件,我的代码大约需要两分钟。我需要将它用于包含 30 亿行的文件,我估计这将花费很长时间。有没有办法将我的代码重构得更快?
到目前为止,我可以做我想做的事。这是:
这是数据样本
提前致谢
python - 转换为二进制时出现 Plink 错误:.ped 文件的第 1 行的标记少于预期
我可以在这里得到一些帮助吗?在从“ped”、“map”格式转换为二进制对应的“bed”、“bim”、“fam”时,是否有人在 plink(全基因组关联分析工具集)中遇到以下错误?我正在使用 Linux 和 plink v1.90b3j。
我在 python 脚本中使用这个命令在几十个文件上运行它:
plink --file S205 --out S205 --make-bed
对于 32 个文件中的只有 2 个,在这种情况下,我收到此错误。该文件与所有其他文件完全相同,因为它们之前也都是使用相同的脚本完成的。所有样本的家庭、父亲、母亲 ID 和性别都相同,正如我所说,等位基因信息的写入方式与所有其他 30 个工作文件完全相同。
当我将行尾编码更改为“Windows”时,我注意到错误更改为以下内容。其他好的文件适用于任何类型的行尾(Unix、Win、Mac)。
作为一个例子,我在这里留下工作 *.ped (S209) 和非工作 (S204) 的第一和最后 X 列。
谢谢!丹尼尔
r - 使用 ggbio 和 ggplot2 为单个基因添加标签
我正在尝试将基因标签添加到使用 ggbio 包呈现基因组片段的绘图中。
我正在使用该autoplot()
函数并传入一个 GenomicRanges 对象。GRange 对象有一列元数据标签,我希望这些标签出现在每个图形段顶部的生成图上。
问题:如何从元数据列向 ggbio/ggplot2 图添加标签?
我的代码如下,没有标签,g 作为 GenomicRanges 对象。
r - 估计行之间的距离差异(遗传标记)
我想计算Name
给定染色体 ( Chr
) 中标记 ( ) 之间的距离。对象dist1.alldown
(下游距离)和dist1.allup
(上游距离)正是我想要的。但是,下面的脚本计算效率很低(我的真实数据可能包含一百万个标记,这个循环很耗时)。
获得有效方法的一些想法或已知工具?谢谢!
python - 如何从 DNA 序列中获取片段
我想将 DNA 基因组切割成任何 k-mer 大小,所以我创建了函数 Sliding_DNA(dna_list,size_to_split) 但我不起作用。
有人能帮帮我吗!
当我打印出变量 pedazos 时,它给了我以下信息:
代码:
r - 用于甲基化 450k 分析的 ChAMP Bioconductor 包的 champ.lasso 错误
我刚刚为甲基化 450k 分析安装了 ChAMP 及其所有依赖项。
我正在尝试本教程(http://www.bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.pdf)但出现错误。
运行 Probe Lasso DMR Hunter 时,我遇到“您发现 4161 个重要的 MVP,其 BH 调整后的 P 值低于 0.05 错误[.data.frame
(dmr.beta.means, , 22:24, ) : undefined columns selected"
该错误会阻止分析停止,并且我无法复制上述教程中显示的内容。
我已经尝试卸载并重新安装 ChAMP,但无济于事...
任何建议和见解将不胜感激!提前致谢!
r - 如何在不提供样品表的情况下加载 GEO 甲基化(450k)数据集?
我从 Gene Expression Omnibus (GEO) 下载了一些 Illumina 450k 甲基化数据集
R Bioconductor 软件包 minfi 和 ChAMP 似乎需要所谓的“样品表”
GEO 上的大多数 TAR 文件似乎不包含这样的样本表 - 它们仅包含 .idat 文件
有好心人能给点建议吗?我想知道如何在没有样本表的情况下运行 ChAMP / Minfi 管道;否则,是否有任何方法可以从 .idat 文件生成样本表?
谢谢!
python - python改变'|' 进入制表符分隔
我需要替换'|' 进入选项卡,以便我可以分析我的人类注释基因组数据(200+mb)。我是一名研究助理,学习如何以最简单/最简单的方式分析/操作测序数据,以便我可以在更多数据上复制它。
这是我的数据的样子。一个文件中有大约 400,000 行此类数据。
我尝试使用此代码替换“|” 进入 '\t' 几行。
我得到的只是这个:
r - 使用 .bam 文件映射 CpG 坐标
我找到了一种在鸡基因组上绘制 CpG 位置的方法,如下:
结果:
...
现在我想对我的 MEDIPseq 结果做同样的事情。我已经有 .bam 格式的对齐序列 (BSgenome.Ggallus.UCSC.galGal4) 可供使用。
超级有趣的是每个 CpG 的覆盖率值列
预期结果:
我知道名为 MEDiPS 的 Bioconductor R 包可以做到这一点,但它使用 windows 大小。但是,我需要每个 CpG 的信息。定义 2bp 窗口大小时,脚本被终止。
r - 将不同行数的表与主 MAP 表组合
该数据集表示基因组图位置(chr 和 start),其中包含 20 个个体 (dat) 的每个位置的测序覆盖率(深度)之和
例子:
该数据集表示基因组图位置(V1 加 V2),每个位置具有单独的覆盖范围(V3)。
例子:
根据chr
和start
上的位置gbsgre
,我需要将每20只动物([[1]]到[[20]])的所有20个深度(V3)交叉到主表(gbsgre),生成最终表如下:第一列是染色体位置(V1),第二列(V2)是起始位置,第三列是“gbsgre”数据集的深度(V3),第四列(V4)是深度(dat/ V3) 的 [[1]] 从“dat”,依此类推,直到第 24 列,这将是“dat”数据集上 [[20]] 的深度。但很重要的一点是,这 20 个人的缺失数据应该被视为零(“0”)。并且决赛桌的数量应该与“gbsgre”相同。