“genomicranges”的相关标签问题

0 投票

3 回答

1448 浏览

r - GRanges 作为 base::data.frame 中的列

我想将GenomicRanges::GRanges来自 Bioconductor 的对象作为单列存储在基础 Rdata.frame中。我想将它放在基础 R data.frame 中的原因是因为我想编写一些 ggplot2 函数，这些函数专门用于底层的 data.frames。但是，我所做的任何尝试似乎都没有结果。基本上这就是我想要做的：

但是该列会自动扩展，而我喜欢将其作为有效GRanges对象保留在单个列中：

当我使用时S4Vectors::DataFrame，它可以按我的意愿工作，除了我想要一个基本的 R data.frame 来做同样的事情：

我也尝试了以下但没有成功：

警告消息：在 format.data.frame(if (omit) x[seq_len(n0), , drop = FALSE] else x, : 损坏的数据帧中：列将被截断或用 NA 填充

rep(value, length.out = nrows) 中的错误：尝试复制“S4”类型的对象

我在使用实现 GRanges 类的 S3 变体方面取得了一些小小的成功vctrs::new_rcrd，但这似乎是一种非常迂回的方式来获得代表基因组范围的单个列。

r bioconductor genomicranges

2019-12-17T08:44:33.373

0 投票

1 回答

78 浏览

r - R中CoverageHeatmap（Bioconductor）函数的问题

我有 2 组成对比对，其中查询基因组 1 (q1) 与参考基因组比对，查询基因组 2 (q2) 与同一参考基因组比对。因此，我与参考基因组中的坐标系进行了比对。对齐方式是 Granges 对象的形式。

我想通过在中心对齐 q1 的断点来将 q2 的断点投影到 q1 上，并在参考基因组坐标系中查找 q1 断点周围的任何 q2 断点聚类。

因此，我制作了一个 q1 的 Granges 对象，其断点位于中心。例如，如果在 q1 中相对于支架 1 的参考基因组 bp 833 有一个断点，然后在其任一侧的 500 处取一个窗口，则 q1 GRanges 对象将具有一个元素：

然后，我在 q2 上构造断点的 GRanges 对象，但所有 seqlength 的长度均为 1。我将其与 q1 GRanges 对象相交，因此 q2 仅获得可以投影到 q1 上的点。

CoverageHeatmap 函数需要：

windows：
一组等长的 Grange

track：
指定覆盖范围的 Granges 或 RleList 对象

当我调用 CoverageHeatmap 函数时，我总是收到以下错误和警告消息：

我已经尝试了很多方法来尝试完成这项工作，但仍然收到相同的错误和警告消息。这是我的代码（包括当我尝试使用 q2 作为 GRanges 对象和 RleList 的函数时）

r heatmap bioinformatics bioconductor genomicranges

2019-12-24T02:33:25.720

0 投票

1 回答

89 浏览

r - 获取每个 seqnames 的最长范围

我有一个GRanges对象，每个对象都有不同的基因组范围seqnames（例如染色体）。
我怎样才能得到一个GRanges只包含每个 seqname/chromosome 的最长范围？

例如，如果gr是GRanges：

然后我想获得以下内容GRanges：

对于我的应用程序，我可以只获得第一个最长的范围，chr3但我希望有一个解决方案也可以选择所有关系（如果有的话）。

r bioconductor genomicranges

2020-02-20T01:11:24.897

0 投票

1 回答

26 浏览

r - 将基因组区域转换为 R 数据框或 GenomicRanges 对象中的基因组位置

我有一个数据框，其中包含一些基因组区间及其在几个样本中的相应覆盖率：

我想获得相同的数据框，但对于基因组位置：

你知道我怎么能得到这个吗？（我也尝试过在 GenomicRanges 对象中转换数据框，但我仍然不知道该怎么做）

r genomicranges

2020-03-23T11:11:15.527

0 投票

1 回答

59 浏览

r - 脱节时调整 GenomicRanges 对象的元数据

我有一个带有一些基因组间隔和一些元数据的 GRanges 对象（3 个向量覆盖了 3 个不同样本中的每个区域）。我已经申请：

获得一个新的 Granges 对象，该对象具有最小的一组唯一的、不重叠的片段。

问题是我无法在新的 Granges 对象中保存元数据。我想获得的是包括这个独特集合的基因组区域的平均覆盖率。

作为一个例子，我想把这个元数据：

进入这个：

我怎样才能做到这一点？

r genomicranges

2020-03-23T12:42:05.347

0 投票

1 回答

120 浏览

r - 在 ATAC-seq 的 R 工作流程中使用 makeGRangesFromDataFrame 时出错

R 新手。最近在 R 中完成 ATAC-seq工作展。

在我调用 makeGRangesFromDataFrame 函数的第 5.1 节中，我收到以下错误 -

我之前安装了 GenomicRanges 包，然后我又试了一次。没有喜悦。所以我附上了包裹require(GenomicRanges) ，现在当我去重复相同的呼叫时收到以下错误 -

[编辑]：输入结果

谁能告诉我我在这里做错了什么？

[使用 R Studio 1.2.5033 - R 3.6.3 - Windows 10]

提前致谢，

R。

r genomicranges

2020-04-02T11:31:17.337

0 投票

1 回答

72 浏览

r - GenomicRanges 在 R 上加载 DESeq2 库时出错

我试图在 R 上加载 DESeq2： library(DESeq2)

显示的错误是：

我封锁了2天。所有问题都始于“S4Vectors”包。我解决了。我更新了 R。根据 GenomicRanges 的要求，我下载并手动将“XVector”版本“0.27.2”放入库 r 文件夹中。我需要使用 DESeq2 来规范化我的连续数据。我也愿意使用与 r 不同的东西

r genomicranges

2020-04-08T14:06:03.817

0 投票

1 回答

245 浏览

r - 用 ggbio 绘制 GenomicRanges 中最长的转录本

我正在尝试使用ggbio. 我正在使用下面的代码产生我想要的输出，除了它包含几个成绩单。是否可以只绘制最长的成绩单？我无法访问Homo.sapiens我认为包含此信息的基因组范围对象。

r genomicranges

2020-05-27T20:18:18.227

0 投票

2 回答

70 浏览

sql - 如何仅过滤许多相交范围之一

作为更长和更复杂查询的一部分，我试图只保留一个重叠间隔的条目，以及所有不重叠的条目。这是一个最小的例子：

条目 2 和 3 具有相同的 id 和重叠范围（从一个开始和结束包含在另一个中），但不同cutoff和seq_region. 条目#3 实际上是条目#2 的子串。我不能放入sql的是条件：

如果来自同一 seqid 的两个范围重叠，则选择得分 == 0.75（或最长的 seq_region，因为这些属性绑定在一起）的范围

所需的输出应该是条目 #1 和 #2：

如何将其作为 SQL 查询？重叠条件可以假设一个区间总是包含在另一个区间中（开始或结束可以相同）。如果重要的话，它是一个 SQLite3 数据库。

我想我需要为此做某种自我内部连接，或者按操作分组，但我不能完全正确。非常感谢您的意见。

sql sqlite intervals genome genomicranges

2020-07-31T13:21:58.463

0 投票

0 回答

66 浏览

r - 使用基因组范围对象作为参考从 .fasta 文件中提取多个序列时出错

我有一个对应于我的参考基因组的 fasta 文件和一个对应于我的数据的 SNP 调用的 vcf 文件。我想从我的 fasta 中获取每个 SNP 的序列。为此，使用 RI 加载 vcf 文件并使用以下命令从中提取基因组范围对象：

我将 SNP 的位置扩展到每侧一个碱基，但我不会在这里考虑它，因为它会给我的问题增加更多偏见。之后也使用 R，我使用 Rsamtools 包使用以下命令读取 fasta：

我使用以下命令检查了所有 SNP（或扩展窗口）是否没有超出我的 fasta 边界：

最后，我运行命令 do 使用我的 fasta 文件从 SNPrange 获取序列。但是我收到以下错误：

我注意到其他人也有同样的问题，但没有一个解决方案，所以我试图用我的方式解决它。我试图分别为每个染色体获取序列：

并且有效，但是有一些染色体存在完全相同的问题：

我怀疑问题可能是我要从中提取字符串的位置是我的 fasta 文件中的“N”。所以我试图在我的 fasta 文件中找到其中一个位置，其中 R 向我显示了一个错误。令我惊讶的是，它们不是“Ns”，而是杂合碱基。然而，当我通过染色体对我的数据进行子集化时，该算法能够识别出一个 Y（C/T）和其他杂合碱基，也就是说，它对简并碱基没有问题。所以我认为问题在于算法而不是我的数据。我在 bash 中使用以下命令从 fasta 文件的所需位置提取序列：

这是我的 sessinInfo

r fasta vcf-variant-call-format genomicranges getseq

2020-11-11T15:40:30.847

问题标签 [genomicranges]

Reference