问题标签 [genomicranges]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pythonic相当于R Granges中的reduce() - 如何折叠范围数据?
在 R 中(尽管冗长):
这是一个测试data.frame
首先,我制作 Granges 对象:
然后我减少间隔以折叠成新的农庄对象:
现在将一个新列附加到原始数据帧,以确认哪些行属于相同的连续“块”。
输出:
我如何在 Python 中做到这一点?我知道 pybedtools,但据我所知,这需要我将 data.frame 保存到磁盘。任何帮助表示赞赏。
r - 从间隔列表中模拟随机位置
我正在尝试在 R 中开发一个函数来输出给定间隔列表中的随机位置。
我的间隔文件(14,600 行)是一个制表符分隔bed
文件 ( chromosome start end name
),如下所示:
目前我的函数将N
在这些间隔内生成随机位置。
这行得通,但是由于我对GenomicRanges包不是特别熟悉,因此我宁愿将其破解。我更希望能够使用R
来自 的基础或包重新编写它tidyverse
,以便我可以将其调整为,例如,允许用户指定染色体。
这也需要很长时间 - 即使是N=10
:
最终,我试图模拟基因组中的随机位置,因此需要为每个N
.
我将不胜感激任何关于我如何可以的建议:
- 减少运行时间
- 消除对
GenomicRanges
此外 - 如果有人知道任何已经这样做的包,我宁愿使用现有的包而不是重新发明轮子。
linux - 如何从差异表达基因座中找到附近的基因
我有兴趣从床具中找出附近差异表达基因座的基因。1000 个上游和下游基因 我有一个 .xlsx 格式的差异表达基因座列表。现在我想知道如何提取基因座周围的基因以及如何看到基因座区域?谁能给他们的建议??确实需要建议。
r - 以线性间隔查找局部坐标
我有一个data.frame
坐标interval
(外显子和编码序列外显子,基因转录本):
他的组织如下:
每个transcript_id
都由一组exon
s 组成,这些 s 是沿seqnames
(即染色体)的线性区间,由start
和定义end
。这些exon
s 具有取决于strand
(对于每个 s 的所有exon
s都相同transcript_id
)的方向/方向性:如果strand == "-"
then 实际上end
是外显子的第一个位置并且start
是它的最后一个位置。如果strand == "+"
thenstart
和end
分别是第一个和最后一个位置。
这些CDS
线是exon
s 的子集。通常,在 each 中保留第一个和最后几个exon
s transcript_id
,每个exon
都有相同的CDS
间隔(就坐标而言)。但是,例外情况是:
CDS
间隔是 s 的子集,exon
这意味着它们可以在exon
(s) 内开始和/或结束。可以是第一个CDS
区间的第一个位置在最接近的那个之后,和/或最后一个区间exon
的最后一个位置在最接近的那个之前。也有可能 a将有一个(因此也是一个)满足这些定义。CDS
exon
transcript_id
exon
CDS
transcript_id
's 其中所有exon
s 具有相同的CDS
间隔transcript_id
's 其中exon
不具有相同CDS
间隔的 s 只是前几个transcript_id
's 其中exon
不具有相同CDS
间隔的 s 只是最后几个
我正在寻找一种快速方法function
,它将返回CDS
相对于 s 已组合的坐标transcript_id
的exon
局部坐标。本质上,start
结果是直到第一个区间+第一个区间宽度data.frame
的总和-它是(或如果)的子集,并且是宽度的总和。exon
CDS
start
CDS
start
exon
end
strand == "-"
end
CDS
start
CDS
到目前为止,这是我正在做的事情,但速度很慢:
关于如何加快速度的任何建议?可能使用dplyr
r - 将数据帧拆分为大小相等的重叠组
我正在寻找一种方法将我的数据分成组,每个组由我定义的相同窗口大小组成。
例如,如果我想要一个 20 的窗口大小,那么组将是:1-20、11-30、21-40。
只要组的大小不超过 20,它可以继续添加到同一个组.
我尝试使用 split 功能,但无法使用它实现这种方式。有没有解决的办法?
r - 格兰奇 - (左)加入
我有两个 Granges 对象,我希望它们被合并以便合并两个 Granges,即使元数据在两个对象中都不存在。
我想在最后:
我尝试的所有方法都要求具有相同数量的列。我可以尝试创建所需的列并填充 NA,但在我看来有点矫枉过正,我确定存在一种方法,但我找不到它:/
谢谢 !
r - ISCN-来自基因组坐标
我得到了一张大表,其中包含在我们的队列中发现的 CNV 基因组坐标:
我想在表格中添加以下数据:
国际人类细胞遗传学命名系统(ISCN)、cnv 大小、基因名称/基因组区域中的基因数量、OMIM 基因数量和 OMIM 描述:
什么是最好的程序/工具/包?也许是一个 R 包?
非常感谢,
r - 获取R中基因组范围重叠的频率
我使用 GenomicRanges R 包来查找两组基因组范围之间的重叠。findOverlaps 函数的输出提供了两个信息:1. 与列表 A 重叠的范围的行号 2. 与列表 B 重叠的范围的行号。
我对列表 A 中的重叠感兴趣,并想在列表 A 中添加一列,指示每行的重叠数。
这是一个可以在 R 中直接使用的可重现示例:
我想向 SetA 添加一列,指示每行与 SetB 重叠的频率。这是我的尝试和我需要得到的输出:
任何关于如何实现这一目标的建议都非常感谢!
r - 是否可以以特定名称加载 Granges .Rdata 文件?
我正在尝试打开一个 Granges 文件,并且我想将其存储在特定名称而不是文件名下,以便以后可以在函数和循环中使用该文件。以下工作正常,但将文件保存在名称“grs”下。
如果我尝试分配它;
有没有办法不影响 Granges 表?
r - 分别获取密码子内同义和非同义核苷酸位置的范围
我有 GRanges 对象(所有基因外显子的坐标);coding_pos
定义特定外显子中密码子的起始位置(1 表示外显子中的第一个核苷酸也是密码子中的第一个 nt,依此类推)。
grTargetGene本身看起来像这样
我有兴趣分别查看每个密码子和 [3] 中 [1,2] 位置的坐标。换句话说,我想要 2 个不同的 GRanges 对象,它们看起来大致像这样(这里只是开始)
我打算通过根据 and 为每个外显子创建一组 grange 的循环来完成它coding_pos
,strand
但我怀疑有一种更聪明的方法,甚至可能有一个函数可以做到这一点,但我找不到一个简单的解决方案.
重要提示:我不需要序列本身(在这种情况下,最简单的方法是先提取 DNA,然后使用序列),但我不需要这样做,我只需要我将用于与某些重叠的位置特征。