问题标签 [genomicranges]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
232 浏览

python - pythonic相当于R Granges中的reduce() - 如何折叠范围数据?

在 R 中(尽管冗长):

这是一个测试data.frame

首先,我制作 Granges 对象:

然后我减少间隔以折叠成新的农庄对象:

现在将一个新列附加到原始数据帧,以确认哪些行属于相同的连续“块”。

输出:

我如何在 Python 中做到这一点?我知道 pybedtools,但据我所知,这需要我将 data.frame 保存到磁盘。任何帮助表示赞赏。

0 投票
1 回答
660 浏览

r - 从间隔列表中模拟随机位置

我正在尝试在 R 中开发一个函数来输出给定间隔列表中的随机位置。

我的间隔文件(14,600 行)是一个制表符分隔bed文件 ( chromosome start end name),如下所示:

目前我的函数将N在这些间隔内生成随机位置。



行得通,但是由于我对GenomicRanges包不是特别熟悉,因此我宁愿将其破解。我更希望能够使用R来自 的基础或包重新编写它tidyverse,以便我可以将其调整为,例如,允许用户指定染色体。

这也需要很长时间 - 即使是N=10

最终,我试图模拟基因组中的随机位置,因此需要为每个N.

我将不胜感激任何关于我如何可以的建议:

  • 减少运行时间
  • 消除对GenomicRanges

此外 - 如果有人知道任何已经这样做的包,我宁愿使用现有的包而不是重新发明轮子。

0 投票
0 回答
34 浏览

linux - 如何从差异表达基因座中找到附近的基因

我有兴趣从床具中找出附近差异表达基因座的基因。1000 个上游和下游基因 我有一个 .xlsx 格式的差异表达基因座列表。现在我想知道如何提取基因座周围的基因以及如何看到基因座区域?谁能给他们的建议??确实需要建议。

0 投票
0 回答
57 浏览

r - 以线性间隔查找局部坐标

我有一个data.frame坐标interval(外显子和编码序列外显子,基因转录本):

他的组织如下:

每个transcript_id都由一组exons 组成,这些 s 是沿seqnames(即染色体)的线性区间,由start和定义end。这些exons 具有取决于strand(对于每个 s 的所有exons都相同transcript_id)的方向/方向性:如果strand == "-"then 实际上end是外显子的第一个位置并且start是它的最后一个位置。如果strand == "+"thenstartend分别是第一个和最后一个位置。

这些CDS线是exons 的子集。通常,在 each 中保留第一个和最后几个exons transcript_id,每个exon都有相同的CDS间隔(就坐标而言)。但是,例外情况是:

  1. CDS间隔是 s 的子集,exon这意味着它们可以在exon(s) 内开始和/或结束。可以是第一个CDS区间的第一个位置在最接近的那个之后,和/或最后一个区间exon的最后一个位置在最接近的那个之前。也有可能 a将有一个(因此也是一个)满足这些定义。CDSexontranscript_idexonCDS
  2. transcript_id's 其中所有exons 具有相同的CDS间隔
  3. transcript_id's 其中exon不具有相同CDS间隔的 s 只是前几个
  4. transcript_id's 其中exon不具有相同CDS间隔的 s 只是最后几个

我正在寻找一种快速方法function,它将返回CDS相对于 s 已组合的坐标transcript_idexon局部坐标。本质上,start结果是直到第一个区间+第一个区间宽度data.frame的总和-它是(或如果)的子集,并且是宽度的总和。exonCDSstartCDSstartexonendstrand == "-"endCDS startCDS

到目前为止,这是我正在做的事情,但速度很慢:

关于如何加快速度的任何建议?可能使用dplyr

0 投票
2 回答
395 浏览

r - 将数据帧拆分为大小相等的重叠组

我正在寻找一种方法将我的数据分成组,每个组由我定义的相同窗口大小组成。

例如,如果我想要一个 20 的窗口大小,那么组将是:1-20、11-30、21-40。
只要组的大小不超过 20,它可以继续添加到同一个组.

我尝试使用 split 功能,但无法使用它实现这种方式。有没有解决的办法?

0 投票
2 回答
1029 浏览

r - 格兰奇 - (左)加入

我有两个 Granges 对象,我希望它们被合并以便合并两个 Granges,即使元数据在两个对象中都不存在。


我想在最后:

我尝试的所有方法都要求具有相同数量的列。我可以尝试创建所需的列并填充 NA,但在我看来有点矫枉过正,我确定存在一种方法,但我找不到它:/

谢谢 !

0 投票
1 回答
102 浏览

r - ISCN-来自基因组坐标

我得到了一张大表,其中包含在我们的队列中发现的 CNV 基因组坐标:

我想在表格中添加以下数据:
国际人类细胞遗传学命名系统(ISCN)、cnv 大小、基因名称/基因组区域中的基因数量、OMIM 基因数量和 OMIM 描述:

什么是最好的程序/工具/包?也许是一个 R 包?

非常感谢,

0 投票
2 回答
227 浏览

r - 获取R中基因组范围重叠的频率

我使用 GenomicRanges R 包来查找两组基因组范围之间的重叠。findOverlaps 函数的输出提供了两个信息:1. 与列表 A 重叠的范围的行号 2. 与列表 B 重叠的范围的行号。

我对列表 A 中的重叠感兴趣,并想在列表 A 中添加一列,指示每行的重叠数。

这是一个可以在 R 中直接使用的可重现示例:

我想向 SetA 添加一列,指示每行与 SetB 重叠的频率。这是我的尝试和我需要得到的输出:

任何关于如何实现这一目标的建议都非常感谢!

0 投票
1 回答
73 浏览

r - 是否可以以特定名称加载 Granges .Rdata 文件?

我正在尝试打开一个 Granges 文件,并且我想将其存储在特定名称而不是文件名下,以便以后可以在函数和循环中使用该文件。以下工作正常,但将文件保存在名称“grs”下。

如果我尝试分配它;

有没有办法不影响 Granges 表?

0 投票
2 回答
78 浏览

r - 分别获取密码子内同义和非同义核苷酸位置的范围

我有 GRanges 对象(所有基因外显子的坐标);coding_pos定义特定外显子中密码子的起始位置(1 表示外显子中的第一个核苷酸也是密码子中的第一个 nt,依此类推)。

grTargetGene本身看起来像这样

我有兴趣分别查看每个密码子和 [3] 中 [1,2] 位置的坐标。换句话说,我想要 2 个不同的 GRanges 对象,它们看起来大致像这样(这里只是开始)

我打算通过根据 and 为每个外显子创建一组 grange 的循环来完成它coding_posstrand但我怀疑有一种更聪明的方法,甚至可能有一个函数可以做到这一点,但我找不到一个简单的解决方案.

重要提示:我不需要序列本身(在这种情况下,最简单的方法是先提取 DNA,然后使用序列),但我不需要这样做,我只需要我将用于与某些重叠的位置特征。