“genomicranges”的相关标签问题

0 投票

2 回答

232 浏览

python - pythonic相当于R Granges中的reduce() - 如何折叠范围数据？

在 R 中（尽管冗长）：

这是一个测试data.frame

首先，我制作 Granges 对象：

然后我减少间隔以折叠成新的农庄对象：

现在将一个新列附加到原始数据帧，以确认哪些行属于相同的连续“块”。

输出：

我如何在 Python 中做到这一点？我知道 pybedtools，但据我所知，这需要我将 data.frame 保存到磁盘。任何帮助表示赞赏。

2018-03-05T19:49:48.027

0 投票

1 回答

660 浏览

r - 从间隔列表中模拟随机位置

我正在尝试在 R 中开发一个函数来输出给定间隔列表中的随机位置。

我的间隔文件（14,600 行）是一个制表符分隔bed文件 ( chromosome start end name)，如下所示：

目前我的函数将N在这些间隔内生成随机位置。

这行得通，但是由于我对GenomicRanges包不是特别熟悉，因此我宁愿将其破解。我更希望能够使用R来自的基础或包重新编写它tidyverse，以便我可以将其调整为，例如，允许用户指定染色体。

这也需要很长时间 - 即使是N=10：

最终，我试图模拟基因组中的随机位置，因此需要为每个N.

我将不胜感激任何关于我如何可以的建议：

减少运行时间
消除对GenomicRanges

此外 - 如果有人知道任何已经这样做的包，我宁愿使用现有的包而不是重新发明轮子。

r simulation bioinformatics bioconductor genomicranges

2018-03-07T10:38:18.417

0 投票

0 回答

34 浏览

linux - 如何从差异表达基因座中找到附近的基因

我有兴趣从床具中找出附近差异表达基因座的基因。1000 个上游和下游基因我有一个 .xlsx 格式的差异表达基因座列表。现在我想知道如何提取基因座周围的基因以及如何看到基因座区域？谁能给他们的建议？？确实需要建议。

linux genomicranges

2018-03-27T04:12:07.900

0 投票

0 回答

57 浏览

r - 以线性间隔查找局部坐标

我有一个data.frame坐标interval（外显子和编码序列外显子，基因转录本）：

他的组织如下：

每个transcript_id都由一组exons 组成，这些 s 是沿seqnames（即染色体）的线性区间，由start和定义end。这些exons 具有取决于strand（对于每个 s 的所有exons都相同transcript_id）的方向/方向性：如果strand == "-"then 实际上end是外显子的第一个位置并且start是它的最后一个位置。如果strand == "+"thenstart和end分别是第一个和最后一个位置。

这些CDS线是exons 的子集。通常，在 each 中保留第一个和最后几个exons transcript_id，每个exon都有相同的CDS间隔（就坐标而言）。但是，例外情况是：

CDS间隔是 s 的子集，exon这意味着它们可以在exon(s) 内开始和/或结束。可以是第一个CDS区间的第一个位置在最接近的那个之后，和/或最后一个区间exon的最后一个位置在最接近的那个之前。也有可能 a将有一个（因此也是一个）满足这些定义。CDSexontranscript_idexonCDS
transcript_id's 其中所有exons 具有相同的CDS间隔
transcript_id's 其中exon不具有相同CDS间隔的 s 只是前几个
transcript_id's 其中exon不具有相同CDS间隔的 s 只是最后几个

我正在寻找一种快速方法function，它将返回CDS相对于 s 已组合的坐标transcript_id的exon局部坐标。本质上，start结果是直到第一个区间+第一个区间宽度data.frame的总和-它是（或如果）的子集，并且是宽度的总和。exonCDSstartCDSstartexonendstrand == "-"endCDS startCDS

到目前为止，这是我正在做的事情，但速度很慢：

关于如何加快速度的任何建议？可能使用dplyr

r dplyr intervals genomicranges

2018-04-13T21:47:21.557

0 投票

2 回答

395 浏览

r - 将数据帧拆分为大小相等的重叠组

我正在寻找一种方法将我的数据分成组，每个组由我定义的相同窗口大小组成。

例如，如果我想要一个 20 的窗口大小，那么组将是：1-20、11-30、21-40。
只要组的大小不超过 20，它可以继续添加到同一个组.

我尝试使用 split 功能，但无法使用它实现这种方式。有没有解决的办法？

r iranges genomicranges

2018-04-23T08:01:21.103

0 投票

2 回答

1029 浏览

r - 格兰奇 - （左）加入

我有两个 Granges 对象，我希望它们被合并以便合并两个 Granges，即使元数据在两个对象中都不存在。

我想在最后：

我尝试的所有方法都要求具有相同数量的列。我可以尝试创建所需的列并填充 NA，但在我看来有点矫枉过正，我确定存在一种方法，但我找不到它：/

谢谢！

r bioconductor genomicranges

2018-08-06T17:51:00.340

0 投票

1 回答

102 浏览

r - ISCN-来自基因组坐标

我得到了一张大表，其中包含在我们的队列中发现的 CNV 基因组坐标：

我想在表格中添加以下数据：
国际人类细胞遗传学命名系统（ISCN）、cnv 大小、基因名称/基因组区域中的基因数量、OMIM 基因数量和 OMIM 描述：

什么是最好的程序/工具/包？也许是一个 R 包？

非常感谢，

r genomicranges

2018-08-19T11:07:22.363

0 投票

2 回答

227 浏览

r - 获取R中基因组范围重叠的频率

我使用 GenomicRanges R 包来查找两组基因组范围之间的重叠。findOverlaps 函数的输出提供了两个信息：1. 与列表 A 重叠的范围的行号 2. 与列表 B 重叠的范围的行号。

我对列表 A 中的重叠感兴趣，并想在列表 A 中添加一列，指示每行的重叠数。

这是一个可以在 R 中直接使用的可重现示例：

我想向 SetA 添加一列，指示每行与 SetB 重叠的频率。这是我的尝试和我需要得到的输出：

任何关于如何实现这一目标的建议都非常感谢！

r dataframe frequency genomicranges

2018-08-21T16:31:45.540

0 投票

1 回答

73 浏览

r - 是否可以以特定名称加载 Granges .Rdata 文件？

我正在尝试打开一个 Granges 文件，并且我想将其存储在特定名称而不是文件名下，以便以后可以在函数和循环中使用该文件。以下工作正常，但将文件保存在名称“grs”下。

如果我尝试分配它；

有没有办法不影响 Granges 表？

r loaddata genomicranges

2018-10-29T11:36:17.200

0 投票

2 回答

78 浏览

r - 分别获取密码子内同义和非同义核苷酸位置的范围

我有 GRanges 对象（所有基因外显子的坐标）；coding_pos定义特定外显子中密码子的起始位置（1 表示外显子中的第一个核苷酸也是密码子中的第一个 nt，依此类推）。

grTargetGene本身看起来像这样

我有兴趣分别查看每个密码子和 [3] 中 [1,2] 位置的坐标。换句话说，我想要 2 个不同的 GRanges 对象，它们看起来大致像这样（这里只是开始）

我打算通过根据 and 为每个外显子创建一组 grange 的循环来完成它coding_pos，strand但我怀疑有一种更聪明的方法，甚至可能有一个函数可以做到这一点，但我找不到一个简单的解决方案.

重要提示：我不需要序列本身（在这种情况下，最简单的方法是先提取 DNA，然后使用序列），但我不需要这样做，我只需要我将用于与某些重叠的位置特征。

r bioconductor genomicranges

2018-11-22T10:23:58.643

问题标签 [genomicranges]

Reference