问题标签 [genomicranges]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
merge - 基因组范围 - 在单个文件中合并重叠 (R STUDIO)
我想在文件中找到重叠的区域并将它们合并,以保持较早的开始和较晚的停止(将 2 个区域合并为 1)
我打算使用基因组范围,但我不确定如何编写脚本。
这是文件fileA.txt包含的内容:
脚本:
我不确定如何为单个文件设置查询和主题,以及作为文档的对象需要任何类型的“”或特定格式(bedGraph、txt 都可以吗?)以便在脚本中被识别?
非常感谢您的帮助!
K。
r - R中的基因组坐标
我正在处理TxDb.Hsapiens.UCSC.hg19.knownGene
数据。我发现最大外显子的长度是 205012。我怎样才能找到那个外显子的基因组坐标?
r - 比较两个基因组范围 (R)
我有 2 个基因组范围
我想让它们具有可比性。首先我将它们组合起来,然后我使用了 disjoin:
所以, disjoin 正在做我想要的拆分,但不幸的是没有保留元数据。有没有办法像这样保留元数据并获得 GRange?
谢谢
r - 一种快速的方式 tp 传播线性范围
我有一个data.frame
其中每一行都是线性间隔 - 特别是这些间隔是染色体上的开始和结束坐标(chr
如下):
染色体有两条链,因此有strand
柱子。
我想将spread
这些间隔设置为 1 的宽度,从而用一列替换start
和列。到目前为止,我正在使用这个:end
position
但是对于我拥有的间隔数量和它们的大小来说,它有点慢。所以我的问题是是否有更快的选择。
r - as.vector(x) 中的错误:没有将此 S4 类强制为向量的方法
我正在尝试使用以下命令在 bash 命令行(我使用的是 CentOS 8)上运行 R 脚本:
cat 1_myScript.R | R --slave --args $SAMPLE"_x" $SAMPLE"_y"
其中 $SAMPLE 是我在 R 脚本中指定的参数,如下所示
> args<-commandArgs()
> aaa<-args[4]
此语法始终适用于我的所有脚本,但现在它给了我以下错误:
as.vector(x) 中的错误:没有将此 S4 类强制为向量的方法
调用:setdiff -> setdiff.default -> -> as.vector
执行停止
奇怪的是,如果我尝试在 R 控制台中运行这个脚本
>source("1_myScript.R")
它继续没有错误。我查了一下,它似乎是一个链接到我在脚本中使用的库“GenomicRanges”的功能。这是我的脚本的主体(请注意,我不知道它失败的确切行):
r - 在 GenomicRanges 包的后续或前面函数中包含重叠范围或基因
我有兴趣从我感兴趣的基因中获取侧翼基因。为此,我发现 package.json 中的follow
andprecede
函数非常有用GenomicRanges
。唯一的问题是这个功能不包括重叠基因。例如,如果我有我感兴趣的基因,例如:
并希望从此列表中获取侧翼基因:
使用follow
,precede
我发现我的基因两侧是参考列表中的第一个和第三个基因:
而不是像我想要的那样为第一个返回 1-2 和为第二个返回 2-3 :
您知道在查询中包含重叠基因的任何方法吗?
r - 如何输入数据以使用 GenomicRanges 包在 R 中进行分析?
我想做这样的数据
这是我的数据
我的问题是如何使我的数据看起来像上面的数据?
任何人都可以帮助我吗?我对输入数据不是很熟悉。
请帮忙!
r - 如何找到两个不同数据帧之间的重叠并将重叠写入相应的 bin
如何找到两个不同数据帧之间的重叠,然后将这些数据写入相应的 bin 中?
例如,我将有一个数据框(由此处的第一个表表示),其中包含一个子集的起点和终点,例如从 0 到 10.000 的数字序列,但这些子集没有提供有关其余 10.000 个数字的信息/不包含它们。
染色体 | 开始 | 结尾 | 长度 |
---|---|---|---|
ch1 | 151 | 250 | 100 |
ch1 | 301 | 410 | 110 |
ch1 | 461 | 500 | 40 |
ch+n | n | n | n |
另一个数据帧(由第二个表表示)由 100 个小数字组成——跨越整个序列的短间隔,从 0 到 10.000。
染色体 | 垃圾桶 | BinStart | BinEnd | 重叠数 |
---|---|---|---|---|
ch1 | 1 | 1 | 100 | |
ch1 | 2 | 101 | 201 | |
ch1 | 3 | 301 | 400 | |
ch1 | 4 | 401 | 500 | |
ch+n | n | n | n |
因此,不同的数据帧也有不同的行数,第一个只跨越 10.000 个数字的一部分,而第二个跨越全部。
我想过使用一个循环遍历每行的 BinStart 和 BinEnd,然后查看间隔是否在第一个数据帧的 Start 和 End 值之间,然后填充 Number of Overlaps 列,但不知道如何做到这一点。
也许我应该将我的垃圾箱分成仅跨越 1 个数字的垃圾箱,并检查这个数字是否介于两个值之间,然后如果是 = 填充数字 1,如果否 = 填充数字 0,然后再次将我的垃圾箱合并到垃圾箱中跨越100个数字?
最后的输出/结果应如下所示:
染色体 | 垃圾桶 | 开始 | 结尾 | 重叠数 |
---|---|---|---|---|
ch1 | 1 | 1 | 100 | 0 |
ch1 | 2 | 101 | 201 | 50 |
ch1 | 3 | 301 | 400 | 100 |
ch1 | 4 | 401 | 500 | 50 |
ch+n | n | n | n | n |
dplyr 或 findOverlaps 或 GenomicRanges 包的 mutate 函数在这里有用吗?
提前谢谢大家,周末愉快!
r - 发现 2 个范围及其重叠区域长度之间的重叠?
我需要找到 2 组(gp1 和 gp2)之间相同染色体上重叠区域的长度。(stackoverflow 中的类似问题与我的目标不同,因为我想找到重叠区域而不是 TRUE/FALSE 答案)。
例如:
我正在寻找一种方法来比较这两组并获得如下结果:
r - 从小的、大小相同的连续箱中重叠和分类计数到不规则、不均匀的箱中
如果您正在阅读本文并花宝贵的时间帮助我解决我遇到的问题,我真的很感激。
在 R 中,我想将数据从一个数据帧中的小连续 bin 排序到另一个数据帧中所有重叠间隔的大小和分布不规则的(非重叠)bin。
我的第一个数据框看起来像这样(实际的数据框将有数十万行):
这是我想将其重叠并分类到相应箱中的数据框:
最后它应该有点像这样(小数/四舍五入没那么重要,但部分重叠的计数也应该分类到垃圾箱中):
我曾想过将 GenomicRanges 与 findOverlaps 函数一起使用,但无法弄清楚在这种情况下如何使其正常工作。
如果有人对如何解决这个问题有任何想法,任何帮助将不胜感激!
提前谢谢您,祝您周末愉快,身体健康!