问题标签 [genomicranges]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - GRanges 作为 base::data.frame 中的列
我想将GenomicRanges::GRanges
来自 Bioconductor 的对象作为单列存储在基础 Rdata.frame
中。我想将它放在基础 R data.frame 中的原因是因为我想编写一些 ggplot2 函数,这些函数专门用于底层的 data.frames。但是,我所做的任何尝试似乎都没有结果。基本上这就是我想要做的:
但是该列会自动扩展,而我喜欢将其作为有效GRanges
对象保留在单个列中:
当我使用 时S4Vectors::DataFrame
,它可以按我的意愿工作,除了我想要一个基本的 R data.frame 来做同样的事情:
我也尝试了以下但没有成功:
警告消息:在 format.data.frame(if (omit) x[seq_len(n0), , drop = FALSE] else x, : 损坏的数据帧中:列将被截断或用 NA 填充
rep(value, length.out = nrows) 中的错误:尝试复制“S4”类型的对象
我在使用 实现 GRanges 类的 S3 变体方面取得了一些小小的成功vctrs::new_rcrd
,但这似乎是一种非常迂回的方式来获得代表基因组范围的单个列。
r - R中CoverageHeatmap(Bioconductor)函数的问题
我有 2 组成对比对,其中查询基因组 1 (q1) 与参考基因组比对,查询基因组 2 (q2) 与同一参考基因组比对。因此,我与参考基因组中的坐标系进行了比对。对齐方式是 Granges 对象的形式。
我想通过在中心对齐 q1 的断点来将 q2 的断点投影到 q1 上,并在参考基因组坐标系中查找 q1 断点周围的任何 q2 断点聚类。
因此,我制作了一个 q1 的 Granges 对象,其断点位于中心。例如,如果在 q1 中相对于支架 1 的参考基因组 bp 833 有一个断点,然后在其任一侧的 500 处取一个窗口,则 q1 GRanges 对象将具有一个元素:
然后,我在 q2 上构造断点的 GRanges 对象,但所有 seqlength 的长度均为 1。我将其与 q1 GRanges 对象相交,因此 q2 仅获得可以投影到 q1 上的点。
CoverageHeatmap 函数需要:
windows:
一组等长的 Grange
track:
指定覆盖范围的 Granges 或 RleList 对象
当我调用 CoverageHeatmap 函数时,我总是收到以下错误和警告消息:
我已经尝试了很多方法来尝试完成这项工作,但仍然收到相同的错误和警告消息。这是我的代码(包括当我尝试使用 q2 作为 GRanges 对象和 RleList 的函数时)
r - 获取每个 seqnames 的最长范围
我有一个GRanges
对象,每个对象都有不同的基因组范围seqnames
(例如染色体)。
我怎样才能得到一个GRanges
只包含每个 seqname/chromosome 的最长范围?
例如,如果gr
是GRanges
:
然后我想获得以下内容GRanges
:
对于我的应用程序,我可以只获得第一个最长的范围,chr3
但我希望有一个解决方案也可以选择所有关系(如果有的话)。
r - 将基因组区域转换为 R 数据框或 GenomicRanges 对象中的基因组位置
我有一个数据框,其中包含一些基因组区间及其在几个样本中的相应覆盖率:
我想获得相同的数据框,但对于基因组位置:
你知道我怎么能得到这个吗?(我也尝试过在 GenomicRanges 对象中转换数据框,但我仍然不知道该怎么做)
r - 脱节时调整 GenomicRanges 对象的元数据
我有一个带有一些基因组间隔和一些元数据的 GRanges 对象(3 个向量覆盖了 3 个不同样本中的每个区域)。我已经申请:
获得一个新的 Granges 对象,该对象具有最小的一组唯一的、不重叠的片段。
问题是我无法在新的 Granges 对象中保存元数据。我想获得的是包括这个独特集合的基因组区域的平均覆盖率。
作为一个例子,我想把这个元数据:
进入这个:
我怎样才能做到这一点?
r - 在 ATAC-seq 的 R 工作流程中使用 makeGRangesFromDataFrame 时出错
R 新手。最近在 R 中完成 ATAC-seq工作展。
在我调用 makeGRangesFromDataFrame 函数的第 5.1 节中,我收到以下错误 -
我之前安装了 GenomicRanges 包,然后我又试了一次。没有喜悦。所以我附上了包裹require(GenomicRanges)
,现在当我去重复相同的呼叫时收到以下错误 -
[编辑]:输入结果
谁能告诉我我在这里做错了什么?
[使用 R Studio 1.2.5033 - R 3.6.3 - Windows 10]
提前致谢,
R。
r - GenomicRanges 在 R 上加载 DESeq2 库时出错
我试图在 R 上加载 DESeq2:
library(DESeq2)
显示的错误是:
我封锁了2天。所有问题都始于“S4Vectors”包。我解决了。我更新了 R。根据 GenomicRanges 的要求,我下载并手动将“XVector”版本“0.27.2”放入库 r 文件夹中。我需要使用 DESeq2 来规范化我的连续数据。我也愿意使用与 r 不同的东西
r - 用 ggbio 绘制 GenomicRanges 中最长的转录本
我正在尝试使用ggbio
. 我正在使用下面的代码产生我想要的输出,除了它包含几个成绩单。是否可以只绘制最长的成绩单?我无法访问Homo.sapiens
我认为包含此信息的基因组范围对象。
sql - 如何仅过滤许多相交范围之一
作为更长和更复杂查询的一部分,我试图只保留一个重叠间隔的条目,以及所有不重叠的条目。这是一个最小的例子:
条目 2 和 3 具有相同的 id 和重叠范围(从一个开始和结束包含在另一个中),但不同cutoff
和seq_region
. 条目#3 实际上是条目#2 的子串。我不能放入sql的是条件:
- 如果来自同一 seqid 的两个范围重叠,则选择得分 == 0.75(或最长的 seq_region,因为这些属性绑定在一起)的范围
所需的输出应该是条目 #1 和 #2:
如何将其作为 SQL 查询?重叠条件可以假设一个区间总是包含在另一个区间中(开始或结束可以相同)。如果重要的话,它是一个 SQLite3 数据库。
我想我需要为此做某种自我内部连接,或者按操作分组,但我不能完全正确。非常感谢您的意见。
r - 使用基因组范围对象作为参考从 .fasta 文件中提取多个序列时出错
我有一个对应于我的参考基因组的 fasta 文件和一个对应于我的数据的 SNP 调用的 vcf 文件。我想从我的 fasta 中获取每个 SNP 的序列。为此,使用 RI 加载 vcf 文件并使用以下命令从中提取基因组范围对象:
我将 SNP 的位置扩展到每侧一个碱基,但我不会在这里考虑它,因为它会给我的问题增加更多偏见。之后也使用 R,我使用 Rsamtools 包使用以下命令读取 fasta:
我使用以下命令检查了所有 SNP(或扩展窗口)是否没有超出我的 fasta 边界:
最后,我运行命令 do 使用我的 fasta 文件从 SNPrange 获取序列。但是我收到以下错误:
我注意到其他人也有同样的问题,但没有一个解决方案,所以我试图用我的方式解决它。我试图分别为每个染色体获取序列:
并且有效,但是有一些染色体存在完全相同的问题:
我怀疑问题可能是我要从中提取字符串的位置是我的 fasta 文件中的“N”。所以我试图在我的 fasta 文件中找到其中一个位置,其中 R 向我显示了一个错误。令我惊讶的是,它们不是“Ns”,而是杂合碱基。然而,当我通过染色体对我的数据进行子集化时,该算法能够识别出一个 Y(C/T)和其他杂合碱基,也就是说,它对简并碱基没有问题。所以我认为问题在于算法而不是我的数据。我在 bash 中使用以下命令从 fasta 文件的所需位置提取序列:
这是我的 sessinInfo