问题标签 [genomicranges]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1448 浏览

r - GRanges 作为 base::data.frame 中的列

我想将GenomicRanges::GRanges来自 Bioconductor 的对象作为单列存储在基础 Rdata.frame中。我想将它放在基础 R data.frame 中的原因是因为我想编写一些 ggplot2 函数,这些函数专门用于底层的 data.frames。但是,我所做的任何尝试似乎都没有结果。基本上这就是我想要做的:

但是该列会自动扩展,而我喜欢将其作为有效GRanges对象保留在单个列中:

当我使用 时S4Vectors::DataFrame,它可以按我的意愿工作,除了我想要一个基本的 R data.frame 来做同样的事情:

我也尝试了以下但没有成功:

警告消息:在 format.data.frame(if (omit) x[seq_len(n0), , drop = FALSE] else x, : 损坏的数据帧中:列将被截断或用 NA 填充

rep(value, length.out = nrows) 中的错误:尝试复制“S4”类型的对象

我在使用 实现 GRanges 类的 S3 变体方面取得了一些小小的成功vctrs::new_rcrd,但这似乎是一种非常迂回的方式来获得代表基因组范围的单个列。

0 投票
1 回答
78 浏览

r - R中CoverageHeatmap(Bioconductor)函数的问题

我有 2 组成对比对,其中查询基因组 1 (q1) 与参考基因组比对,查询基因组 2 (q2) 与同一参考基因组比对。因此,我与参考基因组中的坐标系进行了比对。对齐方式是 Granges 对象的形式。

我想通过在中心对齐 q1 的断点来将 q2 的断点投影到 q1 上,并在参考基因组坐标系中查找 q1 断点周围的任何 q2 断点聚类。

因此,我制作了一个 q1 的 Granges 对象,其断点位于中心。例如,如果在 q1 中相对于支架 1 的参考基因组 bp 833 有一个断点,然后在其任一侧的 500 处取一个窗口,则 q1 GRanges 对象将具有一个元素:

然后,我在 q2 上构造断点的 GRanges 对象,但所有 seqlength 的长度均为 1。我将其与 q1 GRanges 对象相交,因此 q2 仅获得可以投影到 q1 上的点。

CoverageHeatmap 函数需要:

windows:
一组等长的 Grange

track:
指定覆盖范围的 Granges 或 RleList 对象

当我调用 CoverageHeatmap 函数时,我总是收到以下错误和警告消息:

我已经尝试了很多方法来尝试完成这项工作,但仍然收到相同的错误和警告消息。这是我的代码(包括当我尝试使用 q2 作为 GRanges 对象和 RleList 的函数时)

0 投票
1 回答
89 浏览

r - 获取每个 seqnames 的最长范围

我有一个GRanges对象,每个对象都有不同的基因组范围seqnames(例如染色体)。
我怎样才能得到一个GRanges只包含每个 seqname/chromosome 的最长范围?

例如,如果grGRanges

然后我想获得以下内容GRanges

对于我的应用程序,我可以只获得第一个最长的范围,chr3但我希望有一个解决方案也可以选择所有关系(如果有的话)。

0 投票
1 回答
26 浏览

r - 将基因组区域转换为 R 数据框或 GenomicRanges 对象中的基因组位置

我有一个数据框,其中包含一些基因组区间及其在几个样本中的相应覆盖率:

我想获得相同的数据框,但对于基因组位置:

你知道我怎么能得到这个吗?(我也尝试过在 GenomicRanges 对象中转换数据框,但我仍然不知道该怎么做)

0 投票
1 回答
59 浏览

r - 脱节时调整 GenomicRanges 对象的元数据

我有一个带有一些基因组间隔和一些元数据的 GRanges 对象(3 个向量覆盖了 3 个不同样本中的每个区域)。我已经申请:

获得一个新的 Granges 对象,该对象具有最小的一组唯一的、不重叠的片段。

问题是我无法在新的 Granges 对象中保存元数据。我想获得的是包括这个独特集合的基因组区域的平均覆盖率。

作为一个例子,我想把这个元数据:

进入这个:

我怎样才能做到这一点?

0 投票
1 回答
120 浏览

r - 在 ATAC-seq 的 R 工作流程中使用 makeGRangesFromDataFrame 时出错

R 新手。最近在 R 中完成 ATAC-seq工作展。

在我调用 makeGRangesFromDataFrame 函数的第 5.1 节中,我收到以下错误 -

我之前安装了 GenomicRanges 包,然后我又试了一次。没有喜悦。所以我附上了包裹require(GenomicRanges) ,现在当我去重复相同的呼叫时收到以下错误 -

[编辑]:输入结果

谁能告诉我我在这里做错了什么?

[使用 R Studio 1.2.5033 - R 3.6.3 - Windows 10]

提前致谢,

R。

0 投票
1 回答
72 浏览

r - GenomicRanges 在 R 上加载 DESeq2 库时出错

我试图在 R 上加载 DESeq2: library(DESeq2)

显示的错误是:

我封锁了2天。所有问题都始于“S4Vectors”包。我解决了。我更新了 R。根据 GenomicRanges 的要求,我下载并手动将“XVector”版本“0.27.2”放入库 r 文件夹中。我需要使用 DESeq2 来规范化我的连续数据。我也愿意使用与 r 不同的东西

0 投票
1 回答
245 浏览

r - 用 ggbio 绘制 GenomicRanges 中最长的转录本

我正在尝试使用ggbio. 我正在使用下面的代码产生我想要的输出,除了它包含几个成绩单。是否可以只绘制最长的成绩单?我无法访问Homo.sapiens我认为包含此信息的基因组范围对象。

0 投票
2 回答
70 浏览

sql - 如何仅过滤许多相交范围之一

作为更长和更复杂查询的一部分,我试图只保留一个重叠间隔的条目,以及所有不重叠的条目。这是一个最小的例子:

条目 2 和 3 具有相同的 id 和重叠范围(从一个开始和结束包含在另一个中),但不同cutoffseq_region. 条目#3 实际上是条目#2 的子串。我不能放入sql的是条件:

  • 如果来自同一 seqid 的两个范围重叠,则选择得分 == 0.75(或最长的 seq_region,因为这些属性绑定在一起)的范围

所需的输出应该是条目 #1 和 #2:

如何将其作为 SQL 查询?重叠条件可以假设一个区间总是包含在另一个区间中(开始或结束可以相同)。如果重要的话,它是一个 SQLite3 数据库。

我想我需要为此做某种自我内部连接,或者按操作分组,但我不能完全正确。非常感谢您的意见。

0 投票
0 回答
66 浏览

r - 使用基因组范围对象作为参考从 .fasta 文件中提取多个序列时出错

我有一个对应于我的参考基因组的 fasta 文件和一个对应于我的数据的 SNP 调用的 vcf 文件。我想从我的 fasta 中获取每个 SNP 的序列。为此,使用 RI 加载 vcf 文件并使用以下命令从中提取基因组范围对象:

我将 SNP 的位置扩展到每侧一个碱基,但我不会在这里考虑它,因为它会给我的问题增加更多偏见。之后也使用 R,我使用 Rsamtools 包使用以下命令读取 fasta:

我使用以下命令检查了所有 SNP(或扩展窗口)是否没有超出我的 fasta 边界:

最后,我运行命令 do 使用我的 fasta 文件从 SNPrange 获取序列。但是我收到以下错误:

我注意到其他人也有同样的问题,但没有一个解决方案,所以我试图用我的方式解决它。我试图分别为每个染色体获取序列:

并且有效,但是有一些染色体存在完全相同的问题:

我怀疑问题可能是我要从中提取字符串的位置是我的 fasta 文件中的“N”。所以我试图在我的 fasta 文件中找到其中一个位置,其中 R 向我显示了一个错误。令我惊讶的是,它们不是“Ns”,而是杂合碱基。然而,当我通过染色体对我的数据进行子集化时,该算法能够识别出一个 Y(C/T)和其他杂合碱基,也就是说,它对简并碱基没有问题。所以我认为问题在于算法而不是我的数据。我在 bash 中使用以下命令从 fasta 文件的所需位置提取序列:

这是我的 sessinInfo