“rna-seq”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

606 浏览

pipeline - Snakemake 是逐步运行还是并行运行？

我已经使用 Snakemake 编写 RNA-seq 管道一周了。我仍然不知道工作顺序。snakemake 的版本是 5.4.4

我的RNA-seq管道由五部分组成，所以我写了五个规则（规则修剪，规则对齐，规则排序_to_bam，规则fpkm，规则计数）。当我写一个规则时，我会通过运行它来测试它。最后我完成它。当我逐步测试每个规则时，它运行良好。这是我的 Snakefile：

raw_data 显示如下：

然后我想从 raw_data 测试管道，删除我之前一步一步测试的所有存在的中间文件。这是我的 dry_run 结果：

但是当我真正执行它时，它在规则 sort2bam 上运行时报告错误：

之后，我停止所有正在运行的任务并检查文件夹，发现它新生成了几个文件，显示如下：

但这些文件不完整。所以这让我对执行顺序感到困惑。每个样本是否并行运行五个规则？或者只是按规则运行所有样本，我的管道的运行过程似乎支持前一个。这也解释了错误：“samtools sort: truncated file. Aborting”在 sam2bam 阶段。我不知道我的猜测是否正确。

但是我在我的 Snakefile 中添加了规则顺序：

但是好像不行！有没有其他的选项或者设置可以控制规则的执行顺序？

昨晚我从“规则图”开始运行蛇文件，该文件基于已用相同 Snakefile 修剪的修剪过的 fastq.gz。而且运行良好！整个运行过程如下图：

而rule的执行顺序是这样的：首先，rule map被完全执行，然后对每个sample.bam执行left rule。

为什么它的顺序与从 raw_data 开始的整个管道不同？

摘要：两个问题：1.我的Snakefile或执行顺序是否会出错？2. 如何编辑我的 Snakefile 来设置每条规则的顺序以逐条执行任务？

如果有人帮助，我会很感激！

2019-04-29T15:05:41.060

0 投票

0 回答

147 浏览

r - SRAdb 包中的 getSRAfile 函数出错

我正在尝试使用SRAdb 包从 NCBI SRA 存储库下载 RNASeq 数据。我一直收到以下错误：

r bioinformatics ncbi rna-seq

2019-05-02T13:54:12.020

0 投票

1 回答

41 浏览

r - 绘制单个基因的标准化计数时更改条件顺序

我有 17 个变量（我的样本）的 df，我想根据单个基因“光系统 II 蛋白 D1 1”绘制条件位置

countdata 包含数千个基因，但我只显示标题和感兴趣的基因

ddsMat 是这样创建的：

绘图时：

默认情况下，该函数按字母顺序绘制“条件”，例如：East-Mid-West。但我想订购它们，这样我就可以在 West-Mid-East 图表上看到它们。

检查plotCountsIMAGEhere

有没有办法做到这一点？谢谢，

r rna-seq

2019-05-09T11:45:39.077

0 投票

1 回答

36 浏览

r - 如何使计数图中的所有行都从对照组开始

我正在尝试根据单个基因的 RNA-seq 数据制作计数图。我只对每种治疗和对照组之间的比较感兴趣，而且我的数据是配对的，所以我试图展示这一点。我已经设法通过使用 DEseq2 的 plotCounts 函数制作了左侧的图表（单基因计数），然后稍微修改了图表。代码如下：

如何修改它以使图表看起来像右边的那个？

另外，我怎样才能重新排列治疗水平，以便我有左边的 ctr，然后右边的 CO1 和 CO2？

谢谢！安德烈亚

r ggplot2 bioconductor rna-seq

2019-06-10T12:09:23.963

0 投票

0 回答

49 浏览

r - 我的数据集很大，我不知道如何用数据制作数字

我有用于时间过程实验（6 个时间点）的 RNAseq 数据，涉及数万个基因。我已经使用 Tidyverse 上的 Filter 程序来查找符合某些标准的基因（qPCR 的参考基因），但我不知道如何轻松地将这些数据制作成图形。现在，我必须完全改变数据集的格式，但这需要很长时间才不切实际。

目标只是为每个基因绘制一个图表，显示每个条件下表达随时间的变化（不同的叶对和干旱/充分浇水）。我已经在 Excel 中为某些人完成了此操作，但想要一种更快的方法来完成此操作。

数据集是这样设置的：

它有很多标题，从标题中可以看出，它们包含时间、叶子对和条件。所以，我不确定如何将其转换为 x~y 图。

我有几个想法，包括尝试将条件划分为不同的子集（LP1.2. WW/LP.1.2.D/LP3.4.5.WW/LP.3.4.5.D）并为时间制作一个子集（02： 00、06:00 等）并尝试为此制作图表。

我尝试从每个矩阵中提取一个特定的基因，然后可能从中绘制一个图表，但它仅在它来自一个矩阵时才有效，即使那样，该表也不包含数据。

我不确定如何从这里开始，或者这是否是解决此问题的错误方法。

r graph data-visualization figure rna-seq

2019-07-18T11:42:08.547

0 投票

1 回答

767 浏览

syntax-error - Snakemake --forceall --dag 导致 mysterius 错误：: 来自 Graphvis 的“文件”附近的第 1 行中的语法错误

我尝试使用 snakemake 从 RNA-seq 管道构建 DAG 或规则图会导致来自 graphviz 的错误消息。'错误：：'文件'附近的第 1 行中的语法错误。

可以通过注释掉两个没有可见语法错误的打印命令来纠正该错误。我尝试在 Notepad++ 中将脚本从 UTF-8 转换为 Ascii。Graphviz 似乎对这两个特定的打印语句有问题，因为管道脚本中还有其他打印语句。即使错误很容易纠正，它仍然很烦人，因为我希望同事能够轻松地为他们的出版物构建这些图表，并且打印语句会告知他们工作流程中发生的事情。我的管道由一个蛇文件和多个规则文件以及一个配置文件组成。如果有问题的行在 Snakefile 中被注释掉，那么 graphviz 会对规则脚本中的另一行提出问题。

snakemake --forceall --rulegraph | dot -Tpdf > dag.pdf 应该会产生一个显示 snakemake 工作流程的 pdf 输出，但是如果这两行没有被注释掉，则会导致 Error: : syntax error in line 1 near

syntax-error graphviz dot snakemake rna-seq

2019-08-16T20:45:21.923

0 投票

1 回答

43 浏览

r - 创建一个新行以根据标题将 M/F 分配给列，引用第二个表？

我是 R 新手（以及一般的编码），我真的很想知道如何解决这个问题。

我有一个非常大的数据集；列是样本 ID#（约 7000 个样本），行是基因表达（约 20,000 个基因）。列标题是BIOPSY1-A, BIOPSY1-B, BIOPSY1-C, ..., BIOPSY200-Z. 每个数字 (1-200) 是不同的患者，该患者的每个样本是不同的字母 (-A, -Z)。

我想对来自男性和女性的样本进行一些比较。此基因表达表中不包括性别。我有一个单独的文件，其中包含患者编号 ( BIOPSY1-200) 及其性别 M/F。

我想编写一些将查看列 ID（例如：）的代码BIOPSY7-A，认识到它包括“BIOPSY7”（但不包括 == BIOPSY7，因为有BIOPSY7-Athrough BIOPSY7-Z），在参考文件中找到“BIOPSY7”，推断 M/F , 并创建一个带有 M/F 名称的新行。

老实说，我对这个编码感到不知所措，以至于我试图在 Excel 中打开文件以手动输入 7000 列的 M/F，因为它可能会更快。但是，该文件太大，Excel 在打开时会崩溃。

任何能让我走上正确道路的输入或资源将不胜感激！

r database rna-seq

2019-09-23T16:46:54.183

0 投票

1 回答

381 浏览

file-conversion - 如何将 Ensembl .gff3 转换为 12 列 .bed

我正在尝试使用来自 RSeQC 的geneBody_coverage.py 脚本，它需要一个制表符分隔的 12 列 .bed 文件作为参考。为此，我使用 gff2bed 脚本将 .gff3 文件从 Ensembl 转换为 .bed 格式。当我运行它时，我只会收到错误消息，通知我文件不是 12 列格式。一位同事告诉我，他还尝试在 Ensembl 文件上使用 gff2bed，但格式对他来说也不正确。有什么解决办法吗？

我用不同的 .gff3 Ensembl 文件尝试了同样的事情，结果相同。我也尝试过 gtf2bed ，结果相同。

file-conversion rna-seq gff

2019-09-27T15:23:11.750

0 投票

0 回答

122 浏览

shell - Hisat2 与作业数组

我想使用 Hsat2 而不是 bowtie2 但我的脚本有问题：

错误发生在这个

${ARRAY[$SLURM_ARRAY_TASK_ID]} ：没有链接的变量

感谢您的帮助！

shell alignment slurm rna-seq

2019-10-28T20:15:01.897

0 投票

1 回答

168 浏览

r - 如何将 dds 转换为 DGEList 以在 R 中进行 kegga() 分析？

免责声明：我对 R 很陌生！

我有一些来自RNAseq实验的差异表达数据，我试图用它kegga()来观察不同途径中的上调和下调。

我已经使用DESeq2了我的微分表达式，我需要将我的dds对象转换为 aDGEList以用作参数，kegga()但它不起作用。

它只是返回：

as.DGEList(dds) 中的错误：找不到函数“as.DGEList”

有谁知道该怎么做？我肯定已经安装和加载DESeq2等等edgeR。

r matrix rna-seq

2019-11-04T19:00:12.843

问题标签 [rna-seq]

Reference