问题标签 [genome]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
234 浏览

r - 微阵列数据的多对 t 检验

我正在查看来自同一患者的转移瘤和主要肿瘤中数千个基因的 mRNA 表达数据。从具有多个转移的那些,所有转移获得单独的数据。该表看起来像下面的那个。

我想对每个患者和基因进行成对 t 检验,以查看哪些基因在所有患者的转移和肿瘤之间始终如一地变化(即比较患者 A、B、C 等的 GeneA Met/Main,等等所有基因)和然后调整 p 值以保持 5% 的错误发现率。我已经设法运行未配对的 t 检验,汇集所有科目,如下所示,但我无法理解如何执行配对 t 检验。任何帮助表示赞赏。

0 投票
1 回答
233 浏览

bioinformatics - 如何使用 plink 处理马赫格式的估算基因型 (ENIGMA)

我收到了剂量格式的 SNP 基因型,这些基因型是使用 ENIGMA 协议估算的。我想使用plink --dosage [...] --fam [...]分析这些数据(我相信这是正确的语法。)

对于每条染色体,我收到了一个包含以下文件的 tar 文件

这些文件似乎都不符合plink 网站上提到的剂量文件的规格。(特别是,不是 .dose.gz,正如我猜想的那样)

这个事情谁有经验?我是否需要以任何方式修改这些文件中的任何一个?


0 投票
2 回答
133 浏览

mysql - MySQL上一个值的平均重复

我正在使用 MySQL 处理基因组数据库,我必须获取每个基因的平均转录量(每个表中的条目)(标记在自己的列上,因此同一基因的每个转录本具有相同的编号)。例如:transcript_name chr start end exons gene_name

我试过这段代码,但没有奏效:

如何计算每个标签出现的次数以及 MySQL 上的平均值?

0 投票
0 回答
451 浏览

r - 如何从 fasta 文件中获取基因组坐标

由于更新了参考基因组,我必须从旧序列(来自床文件)中获取 fasta,以在最后一个版本中找到新坐标。

所以,从我的名为“my.fasta”的fasta文件中,(有35个序列)

我在此之后创建了一个“DNAStringSet”对象:

最后,我尝试使用 rGADEM 从我的 fasta 中提取坐标:

巴德没有工作。如何从我的 fasta 文件中提取坐标?我需要一个 IRange、床或类似的东西。谢谢你。

0 投票
2 回答
110 浏览

php - 从 mysqli 向表的每个条目添加超链接

我正在尝试在使用 mysqli 数据生成的表上添加与每个基因的基因组区域的直接链接,但无法弄清楚方法。这个想法是每个基因名称都有一个超链接到它在基因组浏览器上的区域。

当我必须根据用户选择的基因为每个基因动态生成链接时,问题就来了。

我试过这个:

$genome是特定于每个物种和程序集的 url 的 par,$row['name2']是每个基因的名称。

0 投票
1 回答
791 浏览

bioinformatics - 运行 bowtie2 期间 breseq 出错

我最近尝试用它breseq来分析一些细菌测序数据。但是,在将原始数据与参考基因组对齐breseq时,我遇到了一个致命错误。bowtie2

这是我得到的错误的关键部分:
+++ NOW PROCESSING Read alignment to reference genome [system] bowtie2-build -q test_breseq/data/reference.fasta test_breseq/02_reference_alignment/reference [system] bowtie2 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq -S test_breseq/02_reference_alignment/MRSA_10C.1.stage1.sam --un test_breseq/02_reference_alignment/MRSA_10C.1.stage1.unmatched.fastq Error: the match penalty is greater than 0 (1) but the --score-min function can be less than or equal to zero. Either let the match penalty be 0 or make --score-min always positive. Error: Encountered internal Bowtie 2 exception (#1) Command: /usr/bin/bowtie2-align-s --wrapper basic-0 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference --passthrough -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq (ERR): bowtie2-align exited with value 1 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!> FATAL ERROR <!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Error running command: [system] bowtie2 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq -S test_breseq/02_reference_alignment/MRSA_10C.1.stage1.sam --un test_breseq/02_reference_alignment/MRSA_10C.1.stage1.unmatched.fastq Result code: 256 FILE: libbreseq/common.h LINE: 1384 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

运行前的所有步骤bowtie2samtools,转换 FASTQ)正常工作。根据错误,这是因为 score-min 函数,它的最小分数为 0 ( --score-min L,0,0.9)。当我将函数更改为(0 替换为 0.1)时,bowtie2单独工作的命令。--score-min L,0.1,0.9但看起来这部分breseq本身是编码的(不是吗?)。

关于我的问题的更多细节:
- 运行命令breseq是:breseq -o OUTPUT_DIR -j 4 -r REFERENCE.fastq RAWDATA.1.FASTQ.GZ RAWDATA.2.FASTQ.GZ
- 原始数据类型:MiSeq (150x2)
-bowtie2版本:2.3.0
-breseq版本:0.29.0
- 操作系统:Linux 16.04 LTS
- 测试也有类似的错误。

这是一个错误还是我只是使用不正确?我将不胜感激任何意见或建议。

0 投票
2 回答
448 浏览

python - 如何从整个基因组文件中计算一个频率矩阵?

所以,我只是想在一个包含与此类似的模式的巨大文件中计算单核苷酸频率(A、T、C、G):TTTGTATAAGAAAAAATAGG。

这会给我整个文件的一行输出,例如:

这是我的代码(没有文件路径,打开,关闭和主)



这是我的输出。

所以它每行计算它。我试过去掉for循环,或者去掉readlines,但是它只会给我一行输出,文件中只有一行。不是整个文件。

我觉得我想太多了。我确信有一种简单的方法可以读取整个文件并打印具有总频率的单行输出......任何见解都值得赞赏。

0 投票
0 回答
72 浏览

r - 在范围内采样

我很难在特定背景下采样或排除某些可能性。

我正在尝试创建一个对基因组区域进行洗牌的 R 函数。

目前该功能运行良好并按照以下步骤操作:

  1. 检索查询的所有基因组区域长度和染色体。
  2. 将所有可能的起点计算为指定的染色体总大小减去每个查询区域的长度。
  3. 计算改组的基因组区域,因为起点从 0 采样到可能的起点,宽度就是每个查询区域的宽度。

该函数使用 GenomicRanges 对象,代码如下:

但是现在我需要使用一个宇宙,即另一组区域,它将确定随机事件将在哪个范围内发生。宇宙就像对采样的限制一样。它将是另一组区域,例如查询。并且不应该在这些区域之外进行改组。

关于如何在 R 的范围内采样的任何线索?

lapply 很重要,因为与使用循环相比,它大大减少了函数的执行时间。

[编辑]

这是一个可重复的示例,它不使用 GenomicRanges 最大程度地简化我想要实现的目标。

0 投票
1 回答
1679 浏览

swift - RealmSwift 也需要 Realm

我正在将一个项目迁移到 Swift 3 并且遇到了 RealmSwift (2.6.1) 和 Genome (3.2.0) 的一些问题。我在 Xcode 中收到 Realm 的错误,说我需要这些初始化:

但是,除了 RealmSwift 之外,这还需要导入 Realm,并且当我的类被初始化时,它会尝试使用 RLMRealm 而不是 Realm。警告说'必需'初始化程序'init(realm:schema :)'必须由'Object'的子类提供,但所需的init使用RLMRealm而不是Realm 有什么建议吗?

我也在使用需要这个初始化的基因组,这就是为什么 Realm 首先要求初始化:

所以 inits 看起来像这样:

在没有任何这些初始化程序的情况下,在 Swift 2.3 中一切正常(使用相应的 Swift 2.3 版本的 Realm 和 Genome),但现在它无法正常工作。

整个模型:

0 投票
1 回答
2259 浏览

genome - Extracting individuals with Plink. Error: Line 1 of --keep file has fewer tokens than expected

I have files with the 2504 individuals of the 1000 genomes project, and I want to filter by population. I did the following for the first population (ACB):

but it gives back the following error:

my indACB.txt file looks like this:

which I made (por each population, using grep) from the population information file that's available in the 1000 genomes page, which has a two times the individual ID (first two columns) and one with the population name, as shown:

I think there's a problem with my --keep file, but I'm not sure what's the wanted structure of the txt file.

I also tried greping ACB individuals from indpop2.txt , so the new indACB.txt file looks like this:

But it yields the following error: