问题标签 [rna-seq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pipeline - Snakemake 是逐步运行还是并行运行?
我已经使用 Snakemake 编写 RNA-seq 管道一周了。我仍然不知道工作顺序。snakemake 的版本是 5.4.4
我的RNA-seq管道由五部分组成,所以我写了五个规则(规则修剪,规则对齐,规则排序_to_bam,规则fpkm,规则计数)。当我写一个规则时,我会通过运行它来测试它。最后我完成它。当我逐步测试每个规则时,它运行良好。这是我的 Snakefile:
raw_data 显示如下:
然后我想从 raw_data 测试管道,删除我之前一步一步测试的所有存在的中间文件。这是我的 dry_run 结果:
但是当我真正执行它时,它在规则 sort2bam 上运行时报告错误:
之后,我停止所有正在运行的任务并检查文件夹,发现它新生成了几个文件,显示如下:
但这些文件不完整。所以这让我对执行顺序感到困惑。每个样本是否并行运行五个规则?或者只是按规则运行所有样本,我的管道的运行过程似乎支持前一个。这也解释了错误:“samtools sort: truncated file. Aborting”在 sam2bam 阶段。我不知道我的猜测是否正确。
但是我在我的 Snakefile 中添加了规则顺序:
但是好像不行!有没有其他的选项或者设置可以控制规则的执行顺序?
昨晚我从“规则图”开始运行蛇文件,该文件基于已用相同 Snakefile 修剪的修剪过的 fastq.gz。而且运行良好!整个运行过程如下图:
而rule的执行顺序是这样的:首先,rule map被完全执行,然后对每个sample.bam执行left rule。
为什么它的顺序与从 raw_data 开始的整个管道不同?
摘要:两个问题:1.我的Snakefile或执行顺序是否会出错?2. 如何编辑我的 Snakefile 来设置每条规则的顺序以逐条执行任务?
如果有人帮助,我会很感激!
r - SRAdb 包中的 getSRAfile 函数出错
我正在尝试使用SRAdb 包从 NCBI SRA 存储库下载 RNASeq 数据。我一直收到以下错误:
r - 绘制单个基因的标准化计数时更改条件顺序
我有 17 个变量(我的样本)的 df,我想根据单个基因“光系统 II 蛋白 D1 1”绘制条件位置
- countdata 包含数千个基因,但我只显示标题和感兴趣的基因
ddsMat 是这样创建的:
绘图时:
默认情况下,该函数按字母顺序绘制“条件”,例如:East-Mid-West。但我想订购它们,这样我就可以在 West-Mid-East 图表上看到它们。
有没有办法做到这一点?谢谢,
r - 如何使计数图中的所有行都从对照组开始
我正在尝试根据单个基因的 RNA-seq 数据制作计数图。我只对每种治疗和对照组之间的比较感兴趣,而且我的数据是配对的,所以我试图展示这一点。我已经设法通过使用 DEseq2 的 plotCounts 函数制作了左侧的图表(单基因计数),然后稍微修改了图表。代码如下:
如何修改它以使图表看起来像右边的那个?
另外,我怎样才能重新排列治疗水平,以便我有左边的 ctr,然后右边的 CO1 和 CO2?
谢谢!安德烈亚
r - 我的数据集很大,我不知道如何用数据制作数字
我有用于时间过程实验(6 个时间点)的 RNAseq 数据,涉及数万个基因。我已经使用 Tidyverse 上的 Filter 程序来查找符合某些标准的基因(qPCR 的参考基因),但我不知道如何轻松地将这些数据制作成图形。现在,我必须完全改变数据集的格式,但这需要很长时间才不切实际。
目标只是为每个基因绘制一个图表,显示每个条件下表达随时间的变化(不同的叶对和干旱/充分浇水)。我已经在 Excel 中为某些人完成了此操作,但想要一种更快的方法来完成此操作。
数据集是这样设置的:
它有很多标题,从标题中可以看出,它们包含时间、叶子对和条件。所以,我不确定如何将其转换为 x~y 图。
我有几个想法,包括尝试将条件划分为不同的子集(LP1.2. WW/LP.1.2.D/LP3.4.5.WW/LP.3.4.5.D)并为时间制作一个子集(02: 00、06:00 等)并尝试为此制作图表。
我尝试从每个矩阵中提取一个特定的基因,然后可能从中绘制一个图表,但它仅在它来自一个矩阵时才有效,即使那样,该表也不包含数据。
我不确定如何从这里开始,或者这是否是解决此问题的错误方法。
syntax-error - Snakemake --forceall --dag 导致 mysterius 错误:: 来自 Graphvis 的“文件”附近的第 1 行中的语法错误
我尝试使用 snakemake 从 RNA-seq 管道构建 DAG 或规则图会导致来自 graphviz 的错误消息。'错误::'文件'附近的第 1 行中的语法错误。
可以通过注释掉两个没有可见语法错误的打印命令来纠正该错误。我尝试在 Notepad++ 中将脚本从 UTF-8 转换为 Ascii。Graphviz 似乎对这两个特定的打印语句有问题,因为管道脚本中还有其他打印语句。即使错误很容易纠正,它仍然很烦人,因为我希望同事能够轻松地为他们的出版物构建这些图表,并且打印语句会告知他们工作流程中发生的事情。我的管道由一个蛇文件和多个规则文件以及一个配置文件组成。如果有问题的行在 Snakefile 中被注释掉,那么 graphviz 会对规则脚本中的另一行提出问题。
snakemake --forceall --rulegraph | dot -Tpdf > dag.pdf 应该会产生一个显示 snakemake 工作流程的 pdf 输出,但是如果这两行没有被注释掉,则会导致 Error: : syntax error in line 1 near
r - 创建一个新行以根据标题将 M/F 分配给列,引用第二个表?
我是 R 新手(以及一般的编码),我真的很想知道如何解决这个问题。
我有一个非常大的数据集;列是样本 ID#(约 7000 个样本),行是基因表达(约 20,000 个基因)。列标题是BIOPSY1-A
, BIOPSY1-B
, BIOPSY1-C
, ..., BIOPSY200-Z
. 每个数字 (1-200) 是不同的患者,该患者的每个样本是不同的字母 (-A, -Z)。
我想对来自男性和女性的样本进行一些比较。此基因表达表中不包括性别。我有一个单独的文件,其中包含患者编号 ( BIOPSY1-200
) 及其性别 M/F。
我想编写一些将查看列 ID(例如:)的代码BIOPSY7-A
,认识到它包括“BIOPSY7”(但不包括 == BIOPSY7,因为有BIOPSY7-A
through BIOPSY7-Z
),在参考文件中找到“BIOPSY7”,推断 M/F , 并创建一个带有 M/F 名称的新行。
老实说,我对这个编码感到不知所措,以至于我试图在 Excel 中打开文件以手动输入 7000 列的 M/F,因为它可能会更快。但是,该文件太大,Excel 在打开时会崩溃。
任何能让我走上正确道路的输入或资源将不胜感激!
file-conversion - 如何将 Ensembl .gff3 转换为 12 列 .bed
我正在尝试使用来自 RSeQC 的geneBody_coverage.py 脚本,它需要一个制表符分隔的 12 列 .bed 文件作为参考。为此,我使用 gff2bed 脚本将 .gff3 文件从 Ensembl 转换为 .bed 格式。当我运行它时,我只会收到错误消息,通知我文件不是 12 列格式。一位同事告诉我,他还尝试在 Ensembl 文件上使用 gff2bed,但格式对他来说也不正确。有什么解决办法吗?
我用不同的 .gff3 Ensembl 文件尝试了同样的事情,结果相同。我也尝试过 gtf2bed ,结果相同。
shell - Hisat2 与作业数组
我想使用 Hsat2 而不是 bowtie2 但我的脚本有问题:
错误发生在这个
${ARRAY[$SLURM_ARRAY_TASK_ID]} :没有链接的变量
感谢您的帮助 !
r - 如何将 dds 转换为 DGEList 以在 R 中进行 kegga() 分析?
免责声明:我对 R 很陌生!
我有一些来自RNAseq
实验的差异表达数据,我试图用它kegga()
来观察不同途径中的上调和下调。
我已经使用DESeq2
了我的微分表达式,我需要将我的dds
对象转换为 aDGEList
以用作参数,kegga()
但它不起作用。
它只是返回:
as.DGEList(dds) 中的错误:找不到函数“as.DGEList”
有谁知道该怎么做?我肯定已经安装和加载DESeq2
等等edgeR
。