问题标签 [sequencing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
791 浏览

bioinformatics - 运行 bowtie2 期间 breseq 出错

我最近尝试用它breseq来分析一些细菌测序数据。但是,在将原始数据与参考基因组对齐breseq时,我遇到了一个致命错误。bowtie2

这是我得到的错误的关键部分:
+++ NOW PROCESSING Read alignment to reference genome [system] bowtie2-build -q test_breseq/data/reference.fasta test_breseq/02_reference_alignment/reference [system] bowtie2 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq -S test_breseq/02_reference_alignment/MRSA_10C.1.stage1.sam --un test_breseq/02_reference_alignment/MRSA_10C.1.stage1.unmatched.fastq Error: the match penalty is greater than 0 (1) but the --score-min function can be less than or equal to zero. Either let the match penalty be 0 or make --score-min always positive. Error: Encountered internal Bowtie 2 exception (#1) Command: /usr/bin/bowtie2-align-s --wrapper basic-0 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference --passthrough -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq (ERR): bowtie2-align exited with value 1 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!> FATAL ERROR <!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Error running command: [system] bowtie2 -t -p 4 --local -L 31 --ma 1 --mp 3 --np 0 --rdg 2,3 --rfg 2,3 --ignore-quals -k 2000 -i S,1,0.25 --score-min L,0,0.9 --reorder -x test_breseq/02_reference_alignment/reference -U test_breseq/01_sequence_conversion/MRSA_10C.1.converted.fastq -S test_breseq/02_reference_alignment/MRSA_10C.1.stage1.sam --un test_breseq/02_reference_alignment/MRSA_10C.1.stage1.unmatched.fastq Result code: 256 FILE: libbreseq/common.h LINE: 1384 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

运行前的所有步骤bowtie2samtools,转换 FASTQ)正常工作。根据错误,这是因为 score-min 函数,它的最小分数为 0 ( --score-min L,0,0.9)。当我将函数更改为(0 替换为 0.1)时,bowtie2单独工作的命令。--score-min L,0.1,0.9但看起来这部分breseq本身是编码的(不是吗?)。

关于我的问题的更多细节:
- 运行命令breseq是:breseq -o OUTPUT_DIR -j 4 -r REFERENCE.fastq RAWDATA.1.FASTQ.GZ RAWDATA.2.FASTQ.GZ
- 原始数据类型:MiSeq (150x2)
-bowtie2版本:2.3.0
-breseq版本:0.29.0
- 操作系统:Linux 16.04 LTS
- 测试也有类似的错误。

这是一个错误还是我只是使用不正确?我将不胜感激任何意见或建议。

0 投票
3 回答
71 浏览

python - 将文本拆分为短语并枚举它们

我有这个序列:

我想拆分这个长序列,消除“xxxxx”并创建这样的分离序列:

有没有人有任何想法开始?

谢谢你。

0 投票
4 回答
1231 浏览

c# - C# 中的整数范围列表

我有一些具有整数序列的类,这些序列在另一个类中注册,该类检查序列中的数字是否尚未使用。

这些序列是最连续的,从一个数字到另一个。

现在我一直在使用一个简单的列表,这意味着如果一个序列表示从 5000 到 15000,那么列表中将有 10000 个元素。我想用更合适的东西来代替它,它可以代表一个简单元素的范围。

在我的特殊情况下,我还希望这些范围代表一个对象(序列起源的类),这样当我查找一个数字时,我可以访问它的起源,而不是查看每个类来查看它们是否包含我要查找的号码。

这是我的伪代码和我期望的结果:

我在 .NET Framework 中找不到任何实现此行为的类,因此我想知道如何实现此行为,或者是否有任何现有的实现。

0 投票
1 回答
150 浏览

command-line-interface - 在 Trimmomatic 中是否有滑动窗口的默认值?

如果我在没有滑动窗口的情况下为 AVGQUAL:20 发出命令,它会为滑动窗口设置任何默认值吗?

0 投票
1 回答
280 浏览

python - 在 python 中寻找两个字符串之间的特定模式 - fastq 文件 - 测序读取

我正在尝试在 python 中编写代码,以帮助我在两个特定字符串之间查找字符串。当我用单个字符串实现代码时,我得到了所需的输出。但是,我需要匹配序列数组中的模式。它一直给我一个错误。

定义一个函数来查找两个用户指定序列之间的模式:

当我尝试单个字符串时,它可以工作:

输出:'GTAA'

但是当我尝试读取 fastq 文件并实现搜索时,它不会:

它向我抛出了这个错误

0 投票
2 回答
31 浏览

bioinformatics - 是否有任何可用于嵌合序列检测的开源工具?

除了 USearch 之外,是否有任何工具可以从 16s、WGS、WTS 序列中检测和去除嵌合序列。替代方案应该是开源的,以便可以用于商业目的。

0 投票
0 回答
40 浏览

oracle - Oracle - 用户定义的排序问题

解释:有 2 个任务 A 和 B,分别每天和每月安排。

任务性质:

  • 所有任务都有一个唯一的 seq_number 分配给它。
  • 该编号是使用存储任务的表中的 MAX(seq_number)+1 分配的。
  • 一旦任务完成并且日期已更改为安排下一个任务,旧任务将被删除并添加新的 1。
  • 在下一个计划之前,旧的任务记录将被保留。
  • seq_number 是存储这些记录的表的主键。

例如。任务 A 计划于 2016 年 6 月 30 日,seq_number 为 1,任务 B 计划于 2016 年 6 月,seq_number 2。一旦 2016 年 6 月 30 日的任务 A 完成,其将被删除,并将为 01-7 月添加一个新任务-2016 seq_number 3。直到 7 月底,任务 A 将继续删除 seq_number 3 记录,并在第二天添加另一个 seq_number 3 的任务 A。一旦我们到达 7 月底,任务 B 将被删除并添加 seq_number 4 . 现在,当任务 A 计划于 2016 年 8 月 1 日进行时,它将占用 seq_number 5。

如您所见,seq_number 不断增加,总有一天会达到上限。

我的解决方案:

我们可以随机获取范围内的任何数字并分配,而不是取 max +1。如果我们得到主键唯一约束错误,那么我们可以再次在循环中随机找到另一个数字,直到找到一个空闲的数字。

请提供可行的方法来解决此问题。欢迎所有想法。

编辑: seq_number 列是 NUMBER(6) 并且不能轻易更改。该解决方案应该能够重用 seq_numbers。

0 投票
2 回答
353 浏览

python - 从测序数据中解析信息

我有一个 txt 文件,它是一个转换后的 fasta 文件,它只有一个我有兴趣分析的特定区域。看起来像这样

CTGGCCGCGCTGACTCCTCTCGCT

CTCGCAGCACTGACTCCTCTTGCG

CTAGCCGCTCTGACTCCGCTAGCG

CTCGCTGCCCTCACACCTCTTGCA

CTCGCAGCACTGACTCCTCTTGCG

CTCGCAGCACTAACACCCCTAGCT

CTCGCTGCTCTGACTCCTCTCGCC

CTGGCCGCGCTGACTCCTCTCGCT

我目前正在使用 excel 对每个位置的核苷酸多样性进行一些计算。有些文件有 200,000 次读取,因此这使得 excel 文件难以处理。我认为使用 python 或 R 必须有一种更简单的方法来做到这一点。

基本上,我想获取带有序列列表的 .txt 文件,并使用此等式 -p(log2(p)) 测量每个位置的核苷酸多样性。有谁知道除了excel之外如何做到这一点?

非常感谢您的帮助。

0 投票
1 回答
830 浏览

bash - 将文件名添加到循环内多个 fasta 文件的 fasta 标头

我有 10 个 fasta 文件(每个文件包含来自 10 个样本中的每个样本的 20 个基因序列)。我想从 10 个样本中创建 20 个特定于每个基因的文件。我按照以下步骤使用标题中的 file_name 提取基因:

我成功地为每个样本的每个基因创建了多个基因 fasta 文件(循环的一部分):

但是,我无法将 file_name 添加到循环中的文件头(但可以为开头提到的 1 个文件做)。

总的来说,我的目标是从所有 fasta 文件(多行)中提取具有相似基因名称的基因,并制作具有更新标题的基因特定 fasta 文件,包括基因名称和文件名(这样我应该知道该基因来自哪个文件) + 使用该基因名称在文件中附加基因序列。以下是示例输入和输出文件:

请指导。谢谢。

0 投票
4 回答
516 浏览

c++ - C++11 中的逗号运算符(排序)

该标准提到f(a,(t=3,t+2),c); 根据我的理解,这将是一个赋值表达式,后跟第二个运算符的表达式。

但语法将其并列列出:

表达:

赋值表达式

表达式,赋值表达式

工作草案,编程语言标准 C ++ 修订版 N4140(2014 年 11 月)

有人这么好,可以向我解释一下我在这里缺少什么吗?