问题标签 [gff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
47 浏览

perl - 如何将 Emboss:Palindrome 的输出转换为 gff/bed 文件 (perl)

我很抱歉问这种愚蠢的问题,但我自己找不到它......我前一段时间学习了perl,我有点迷茫。

我想转换这种输出:

进入 gff 或床文件:

我找到了一个 perl 模块:https ://metacpan.org/pod/Bio::Tools::GFF

这是我的小脚本:

这是结果:

问题是:我希望得到回文的开始和结束以及最后一行中的特定位置的结果。

我想要的例子:

先感谢您。

0 投票
0 回答
44 浏览

bioinformatics - HTSeq-count 为每个基因返回 0,而不是表达式值

我正在尝试使用 htseq-count 总结基因计数;它在每个基因上返回 0 个计数。我不确定我做错了什么;我认为这与我正在使用的基因标志有关。我已经尝试将 GTF 用于拟南芥 TAIR 10:我从以下网址获得:ftp : //ftp.ensemblgenomes.org/pub/release-46/plants/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.46.gtf.gz作为 Araport 上可用的 GFF 文件。

我正在使用我知道具有基因表达值的各种 BAM 文件。

我在本地和银河上都尝试过到目前为止我尝试过的本地命令是:

我在galaxy上做过同样的事情;输入 -i 值。

关于我哪里出错的任何帮助都会很棒。

谢谢!

0 投票
1 回答
607 浏览

python - 熊猫中列名的单元格值

我有以下熊猫数据框(它是一个gff文件):

列中的值attr实际上是附加列,但文件格式gff不允许这样做。我想将此列中的文本拆分为多列。这些值是广义上的字典,这意味着每个键都有一个值,由=(例如accession=Tname16C00001.1)分隔,每个键值对由 分隔;

我首先将每个键值对分成每df行两列:

这给了我以下df,重复的行索引:

现在,我如何分别为每个索引转置和汇总列0和中的每个“键值”对?1所有空单元格都可以有 NaN(会有很多)。

我想要的输出应该是:

0 投票
1 回答
85 浏览

python - Bcbio-gff 文件创建问题

使用 GFF.write() 创建文件时,我得到一个新行,其中包含“annotation remark”作为源,然后是序列区域的 ASCII 编码:

知道它为什么在这里,它的用途以及我如何避免它?我担心在第三方软件中使用它可能会成为问题。

我只导入了 bcbio-gff 包,但我相信它是 Biopython 的一部分,链接:https ://biopython.org/wiki/GFF_Parsing

0 投票
0 回答
44 浏览

r - 在 R 中合并 gff 文件和 csv 文件时出现问题

我有一个gff文件和一个csv看起来像的文件:

我想按列合并这两个文件Name。我试过了:

但是在 csv 文件中,我Name对不同的值都有相同的值,Samples例如B005230.2.1两者都相同Sample1Sample2而它只在GFF文件中出现一次。因此,合并文件搞砸了。我将不胜感激任何帮助解决这个问题。谢谢!

0 投票
1 回答
53 浏览

shell - shell 中的 sed 函数应用于目录中的所有 .gff 文件

我正在处理 .gff3 文件,试图删除目录中许多文件底部的重叠群序列。重叠群序列用##FASTA 与文件的其余部分分开,我希望删除下面的所有内容(DNA 序列,FASTA 格式)。

此脚本适用于一个文件:

但是当我尝试将它应用于这样的目录中的所有文件时失败了:

任何帮助表示赞赏!

0 投票
1 回答
32 浏览

r - 基于组将数据添加到数据框

我正在处理生物信息学数据,每行都有一个基因,列中有统计信息/元数据。一些基因来自同一生物体,由“ID”列指示,我将数据分组在这个变量上。

我想根据 ID(分组因子)添加来自另一个文件的数据,以便 ID = a 的行应该具有来自名为 a.gff 的文件的数据,依此类推。我想添加的数据来自一个包含基因位置的 .gff 文件。有一个 ID=a 的 gff 文件,一个 ID=b 的文件,一个 ID=c 的文件,等等根据 ID 命名(例如“a.gff”)。

数据是什么样子的:

基因 ID
赛拉 一个
细胞 一个
Atl b
prT 一个
胡尔 C

有没有办法实现为每个 ID 分组打开文件、执行操作并移动到下一个 ID 的功能?

我对 R 很陌生,非常感谢任何帮助!

0 投票
0 回答
18 浏览

python - 附加一个熊猫列的字符串,使用另一列的元素加上迭代数

我想了解如何将第三列中包含的字符串附加到图像中数据帧的第 9 列,但前提是该值等于“exon”或“CDS”+ 迭代数。

因此,要在 dataframe[8] 中获得:

8

ID=g3.t1;基因ID=g3

父=g3.t1;外显子1

父=g3.t1;外显子2

父=g3.t1;CDS1

父=g3.t1;CDS2

我希望我已经清楚了。谢谢,马可

在此处输入图像描述