问题标签 [genomicranges]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
29 浏览

merge - 基因组范围 - 在单个文件中合并重叠 (R STUDIO)

我想在文件中找到重叠的区域并将它们合并,以保持较早的开始和较晚的停止(将 2 个区域合并为 1)

我打算使用基因组范围,但我不确定如何编写脚本。

这是文件fileA.txt包含的内容:

脚本:

我不确定如何为单个文件设置查询和主题,以及作为文档的对象需要任何类型的“”或特定格式(bedGraph、txt 都可以吗?)以便在脚本中被识别?

非常感谢您的帮助!

K。

0 投票
1 回答
38 浏览

r - R中的基因组坐标

我正在处理TxDb.Hsapiens.UCSC.hg19.knownGene数据。我发现最大外显子的长度是 205012。我怎样才能找到那个外显子的基因组坐标?

0 投票
2 回答
121 浏览

r - 比较两个基因组范围 (R)

我有 2 个基因组范围

我想让它们具有可比性。首先我将它们组合起来,然后我使用了 disjoin:

所以, disjoin 正在做我想要的拆分,但不幸的是没有保留元数据。有没有办法像这样保留元数据并获得 GRange?

谢谢

0 投票
1 回答
17 浏览

r - 一种快速的方式 tp 传播线性范围

我有一个data.frame其中每一行都是线性间隔 - 特别是这些间隔是染色体上的开始和结束坐标(chr如下):

染色体有两条链,因此有strand柱子。

我想将spread这些间隔设置为 1 的宽度,从而用一列替换start和列。到目前为止,我正在使用这个:endposition

但是对于我拥有的间隔数量和它们的大小来说,它有点慢。所以我的问题是是否有更快的选择。

0 投票
1 回答
1071 浏览

r - as.vector(x) 中的错误:没有将此 S4 类强制为向量的方法

我正在尝试使用以下命令在 bash 命令行(我使用的是 CentOS 8)上运行 R 脚本: cat 1_myScript.R | R --slave --args $SAMPLE"_x" $SAMPLE"_y"

其中 $SAMPLE 是我在 R 脚本中指定的参数,如下所示

> args<-commandArgs()

> aaa<-args[4]

此语法始终适用于我的所有脚本,但现在它给了我以下错误:

as.vector(x) 中的错误:没有将此 S4 类强制为向量的方法

调用:setdiff -> setdiff.default -> -> as.vector

执行停止

奇怪的是,如果我尝试在 R 控制台中运行这个脚本

>source("1_myScript.R")

它继续没有错误。我查了一下,它似乎是一个链接到我在脚本中使用的库“GenomicRanges”的功能。这是我的脚本的主体(请注意,我不知道它失败的确切行):

0 投票
0 回答
22 浏览

r - 在 GenomicRanges 包的后续或前面函数中包含重叠范围或基因

我有兴趣从我感兴趣的基因中获取侧翼基因。为此,我发现 package.json 中的followandprecede函数非常有用GenomicRanges。唯一的问题是这个功能不包括重叠基因。例如,如果我有我感兴趣的基因,例如:

并希望从此列表中获取侧翼基因:

使用followprecede我发现我的基因两侧是参考列表中的第一个和第三个基因:

而不是像我想要的那样为第一个返回 1-2 和为第二个返回 2-3 :

您知道在查询中包含重叠基因的任何方法吗?

0 投票
1 回答
22 浏览

r - 如何输入数据以使用 GenomicRanges 包在 R 中进行分析?

我想做这样的数据

这是我的数据

我的问题是如何使我的数据看起来像上面的数据?

任何人都可以帮助我吗?我对输入数据不是很熟悉。

请帮忙!

0 投票
0 回答
37 浏览

r - 如何找到两个不同数据帧之间的重叠并将重叠写入相应的 bin

如何找到两个不同数据帧之间的重叠,然后将这些数据写入相应的 bin 中?

例如,我将有一个数据框(由此处的第一个表表示),其中包含一个子集的起点和终点,例如从 0 到 10.000 的数字序列,但这些子集没有提供有关其余 10.000 个数字的信息/不包含它们。

染色体 开始 结尾 长度
ch1 151 250 100
ch1 301 410 110
ch1 461 500 40
ch+n n n n

另一个数据帧(由第二个表表示)由 100 个小数字组成——跨越整个序列的短间隔,从 0 到 10.000。

染色体 垃圾桶 BinStart BinEnd 重叠数
ch1 1 1 100
ch1 2 101 201
ch1 3 301 400
ch1 4 401 500
ch+n n n n

因此,不同的数据帧也有不同的行数,第一个只跨越 10.000 个数字的一​​部分,而第二个跨越全部。

我想过使用一个循环遍历每行的 BinStart 和 BinEnd,然后查看间隔是否在第一个数据帧的 Start 和 End 值之间,然后填充 Number of Overlaps 列,但不知道如何做到这一点。

也许我应该将我的垃圾箱分成仅跨越 1 个数字的垃圾箱,并检查这个数字是否介于两个值之间,然后如果是 = 填充数字 1,如果否 = 填充数字 0,然后再次将我的垃圾箱合并到垃圾箱中跨越100个数字?

最后的输出/结果应如下所示:

染色体 垃圾桶 开始 结尾 重叠数
ch1 1 1 100 0
ch1 2 101 201 50
ch1 3 301 400 100
ch1 4 401 500 50
ch+n n n n n

dplyr 或 findOverlaps 或 GenomicRanges 包的 mutate 函数在这里有用吗?

提前谢谢大家,周末愉快!

0 投票
1 回答
34 浏览

r - 发现 2 个范围及其重叠区域长度之间的重叠?

我需要找到 2 组(gp1 和 gp2)之间相同染色体上重叠区域的长度。(stackoverflow 中的类似问题与我的目标不同,因为我想找到重叠区域而不是 TRUE/FALSE 答案)。

例如:

我正在寻找一种方法来比较这两组并获得如下结果:

0 投票
2 回答
56 浏览

r - 从小的、大小相同的连续箱中重叠和分类计数到不规则、不均匀的箱中

如果您正在阅读本文并花宝贵的时间帮助我解决我遇到的问题,我真的很感激。

在 R 中,我想将数据从一个数据帧中的小连续 bin 排序到另一个数据帧中所有重叠间隔的大小和分布不规则的(非重叠)bin。

我的第一个数据框看起来像这样(实际的数据框将有数十万行):

这是我想将其重叠并分类到相应箱中的数据框:

最后它应该有点像这样(小数/四舍五入没那么重要,但部分重叠的计数也应该分类到垃圾箱中):

我曾想过将 GenomicRanges 与 findOverlaps 函数一起使用,但无法弄清楚在这种情况下如何使其正常工作。

如果有人对如何解决这个问题有任何想法,任何帮助将不胜感激!

提前谢谢您,祝您周末愉快,身体健康!