问题标签 [rna-seq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
snakemake - Snakemake,RNA-seq:如何根据所分析样本的特征执行管道的一个子部分或另一个子部分?
我正在使用snakemake 设计一个RNAseq 数据分析管道。虽然我已经设法做到了,但我想让我的管道尽可能地具有适应性,并使其能够在同一运行分析中处理单读取 (SE) 数据或双端 (PE) 数据,而不是一次分析 SE 数据,另一次分析 PE 数据。
我的管道应该是这样设计的:
- 提供 1 个文件(SE 数据)或 2 个文件(PE 数据)的数据集下载 -->
- 一组特定于 1 个文件的规则 A 或 一组特定于 2 个文件的规则 B -->
- 接受 1 或 2 个输入文件并将其/它们合并到单个输出中的规则 -->
- 最后一套规则。
注意:A 的所有规则都有 1 个输入和 1 个输出,B 的所有规则都有 2 个输入和 2 个输出,它们各自的命令如下所示:
- 1 个输入:
somecommand -i {input} -o {output}
- 2 个输入:
somecommand -i1 {input1} -i2 {input2} -o1 {output1} -o2 {output2}
注 2:除了输入/输出的差异外,集合 A 和 B 的所有规则都具有相同的命令、参数/等...
换句话说,我希望我的管道能够根据示例在执行规则集 A 或规则集 B 之间进行切换,方法是在开始时在配置文件中提供有关示例的信息(示例 1 是SE,样本 2 是 PE ......这是事先知道的)或要求 snakemake 在数据集下载后计算文件数,以便为每个样本选择适当的下一组规则。如果您看到另一种方法可以做到这一点,欢迎您告诉我们。
我考虑过使用检查点、输入函数和 if/else 语句,但我还没有设法解决这些问题。
您是否有任何提示/建议/方法可以使“转换”发生?
r - 如何使用 R 从 Allen Brain Map 将 63 GB .csv 文件读入 RStudio?
使用 RStudio,我试图从 Brain Allen 研究所读取 Gene_expression_matrix.csv 文件,该文件太大,即使对于具有大量 RAM 的计算机(我可以访问并在 64 GB 的笔记本电脑上尝试过) RAM 和具有 384 GB RAM 的计算机。有人访问过此文件或任何类似大小的文件吗?谢谢!
我正在使用这段代码:
我收到的错误信息是:
bash - 在循环中更改文件路径输出,在 shell 脚本中
我想创建一个循环来运行多个输入文件并为每个输入文件生成一个输出文件。
我可以使用此命令从 1 个输入 sam 文件中生成 1 个输出 bam 文件:
在哪里:
当将此命令变为循环时,我不确定如何处理$output_file
等效命令。因为我不知道如何更改所需的文件路径和文件扩展名$many_output_file variable
:
有人可以帮忙吗?我是 Bash 新手,我通常使用 R。我曾尝试使用 sed 和 tr,但当我尝试制作many_output_file
from的文件列表时,它们似乎出现错误many_input_files
stat - 通过 RSEM 分析获得的关于 XXX.cnt 的信息
经过 RSEM-1.3.3 分析后,我在新创建的“XXX.stat”目录中获得了一个“XXX.cnt”。
下图是 XXX.cnt 的内容。
这些数字是什么意思?
预先感谢您的好意。
python - OCI 运行时创建失败:container_linux.go:349:启动容器进程导致“exec:\”r-base\”:在 $PATH 中找不到可执行文件”:未知
我之前使用类似下面的代码创建了一个 docker 容器,但我运行了一个基本的 python 脚本来打印“Hello”。我正在尝试在 R 中执行 RNASeq,并在尝试运行代码时不断遇到问题。
这是我的 Dockerfile 中的内容。
在我的终端上,我运行:
docker build -t username/python_git_r_hello .
这运行成功,但是当我跟进时:
docker run -it username/python_git_r_hello:latest r-base file.R
我收到以下错误:码头工人:
请帮忙,我是使用 docker 的新手。
bash - 用于 RNAseq 比对的 Bash For Loop
我的想法根本不适用于 for 循环,因此将不胜感激任何帮助。
背景:我正在尝试分析一些 RNAseq 数据,并且需要编写一个 for 循环来通过 STAR 读取我所有的双端 fastq 文件。
这是我现在拥有的代码:
这是我的文件的样子:
我想编写一个 for 循环,以便 fq1 和 fq2 将成为每次读取的每一对,但我不确定将 for 循环放置在哪里,以便可以在 STAR 命令中使用 fq1 和 fq2。先感谢您。
r - 如何在自组织图上绘制集群/节点编号
我是 R 数据分析的新手,我正在使用自组织图和 Kohonen 包分析 RNAseq 数据,以根据表达趋势对基因进行聚类。我对分析结果非常满意,因为我感兴趣的一些目标基因最终与其他基于基因本体的目标基因位于同一个簇(我们称之为 clusterX)中,可能是有趣的相互作用者。
我使用了六边形网格,所以现在我想检查哪些是 clusterX 的 6 个相邻集群/节点,以查看它们包含哪些基因。
有没有办法知道感兴趣的 clusterX 的相邻集群是什么?
是否可以绘制显示每个集群的 numberID 的地图?与此处附加的 SOM 所做的类似
提前致谢
r - 是否有 R 函数将单个变量绘制为热图?
我已经生成了一些 RNA-seq 数据,并在两组和倍数变化 (log2FC) 之间列出了我的 DE 基因列表。
我希望能够在类似于此图中的单个条形图中为该组比较绘制 log2FC 的摘要热图
.
有人会碰巧知道我如何为此编写一个 ggplot 脚本吗?
谢谢你。
python - 基于 louvain 集群的 Anndata 子集
我想根据集群对 anndata 进行子集化,但我无法理解如何去做。
我正在运行 scVelo 管道,并且我在tl.louvain
louvain 的基础上运行了集群单元的功能。我得到了大约 32 个集群,其中集群 2 和 4 是我感兴趣的,我只需要在这些集群上进一步运行管道。(最初我有我在 scVelo 中读取的 loom 文件,所以我现在有 anndata。)
我尝试使用adata.obs["louvain"]
which 给了我集群信息,但我需要编写一个只有 2 个集群的新 anndata 并进一步处理。
请帮助如何对 anndata 进行子集化。非常感谢任何帮助。(对它很陌生,我发现很难获得)
r - DESCEND 的函数 'selectGenes' 需要永远在稀疏矩阵上完成,并且也没有显示错误消息
我有一个维度为 33694*10000 的稀疏矩阵,我已将其转换为数据框,然后强制转换为矩阵。我正在使用 DESCEND 和 SOUP(单细胞数据的半软聚类)从矩阵中过滤掉高度可变的基因,然后执行聚类。
SOUP 中的“selectGenes”函数需要很长时间才能完成,但更早之前需要两天时间才能完成相同的任务(不同的矩阵但相同的维度)。我检查了我的矩阵是否有任何缺失值或 NA,但矩阵似乎很好。或者我可能需要在我的矩阵中查找其他类型的错误,因为测试数据运行良好并且需要通常的时间来完成运行。
我不知道如何解决这个问题,因为我看不到任何错误,我的屏幕看起来像这样。
这是 SOUP 教程 pdf 的链接和函数“selectGenes”的代码:
https://github.com/lingxuez/SOUPR/blob/master/vignettes/SOUP-vignette.pdf
https://rdrr.io/github/lingxuez/SOUP/src/R/geneSelect.R
https://rdrr.io/github/jingshuw/descend/src/R/descend.R
谁能建议我如何解决或解决此问题?我在具有 64 个内核和 1 Tb RAM 的集群上运行它。
这是我在运行提到的函数之前所做的: