问题标签 [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
22418 浏览

shell - 使用 SED/AWK 将 FASTQ 转换为 FASTA

我有一个数据,它总是以以下格式(称为 FASTQ)以四个为一组:

是否有一种简单的 sed/awk/bash 方法可以将它们转换成这种格式(称为 FASTA):

原则上,我们希望提取每个 4 块中的前两行并替换@>.

0 投票
1 回答
3361 浏览

r - 在 R 中将 FASTQ ASCII 转换为十进制和十六进制

我有一个 FASTQ 质量分数,它显示为一系列 ASCII 字符。在这种情况下(可能)ASCII 字符 64 到 126 代表 0 到 62 的分数(假设它是 Illumina)。这产生了基础序列:

feffefdfbefdfffcfdeTddaYddffbfcI``S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

如何提取 ASCII 字符的数量?

谢谢你桑

编辑:这个序列表示由碱基组成的生物序列的质量(来自核酸中的碱基对,意味着一个字符(ATGC))。碱基质量是 phred 标度的碱基错误概率,等于 -10 log10 Pr{碱基错误}。

0 投票
2 回答
168 浏览

python - 关于python循环

我有两条路

在 path1 中,我有一堆 fastq 文件:

在path2中,我有很多.txt对应于path1中的fastq文件:

现在我已经制作了脚本来从 path1 中的 fastq 文件计算 fastq_seq_num,见下文:

并且还从 path2 中的 .txt 文件计算 num_seq_processed_sai,见下文:

好的,现在我的问题是:我想创建一个循环,在其中计算 path1 中第一个 fastq 文件的 fastq_seq_num;然后计算path2中FIRST txt文件的num_seq_processed;然后比较这两个数字;然后结束循环。然后第二个循环开始......我怎样才能设计一些循环来实现这一点?谢谢!!!

0 投票
1 回答
1699 浏览

bioinformatics - 如何创建 FASTQ 序列文件?

我有一个基因组数据库,其中包含一个简单的字符序列(如>chr1 AGTGTCA.....)。现在,我想将其转换为标准的FASTQ 格式,如下所示:

由于我对这种格式不清楚,我无法转换它。如何将简单的字符序列转换为 FASTQ 格式(如上例所示)?

具体来说,我要问:

  1. 是否有任何现有的代码来进行编码?
  2. 如果不是,我如何在 FASTQ 中编码字符序列?这种格式意味着什么,我该如何创建它?
0 投票
4 回答
25820 浏览

list - bash: /bin/ls: 参数列表太长

我需要列出大量文件(40,000 个文件),如下所示:

我的命令是:ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist 但是错误是:bash: /bin/ls: Argument list too long

但是我能解决这个问题吗?perl/python 还有其他方法可以制作这样的列表吗?

谢谢

0 投票
4 回答
25470 浏览

python - python 中的成员资格测试比 set() 更快

我必须检查包含 10-100k 这些元素的列表中是否存在数百万个元素(20-30 个字母 str)。在 python 中有比这更快的方法set()吗?

0 投票
3 回答
786 浏览

bash - 将 echo 保存为脚本中的输出

以下是我的一些代码:

这个 if 循环是“回显”输出;但是我希望将回显输出保存到某个文件中。我想在脚本中管理这个。我的意思可能是某事。喜欢:

但显然这是行不通的;我要求在脚本中保存回声输出的正确方法。

谢谢

0 投票
1 回答
631 浏览

design-patterns - 查找字符串中所有模式出现的位置

我正在处理 DNA 序列文件(FASTQ 文件)。

@Read1- 好

@Read2- 有 2 个不好的地方

@Read3 :一个好,一个早

@Read4 :一个好,一个后

我想在一个序列中查找一个 6 个字符长的模式 (GAACG)(以 @ 开头的行下面的行)。

重要的是我希望在字符串中的第 42 位找到我的模式。

如果在该位置找到模式,我将序列连同它之前的行和它之后的 2 行一起复制到一个新文件中。使用 awk 尝试此操作时,它不起作用,因为所有的 index()、match() 函数只查看第一次出现并且不进一步查看,所以如果它在位置 41 之前找到我的模式,那么它不会将我的数据复制到新文件。

基本上我的脚本应该返回读取 1、3 和 4...

如何筛选我的 FASTQ 文件中的模式,评估找到它的所有位置,并仅考虑在位置 42 具有它的序列,无论该模式是否也存在于其他位置?

0 投票
1 回答
708 浏览

performance - 提高fastq的解析速度

@solved 使用相同代码的 C# 速度是原来的两倍

我正在用 perl 解析一个 phred33 fastq 文件,这需要相当长的时间(大约 15 分钟)。fastq 文件大约 3 gigs。有什么合理的方法可以加快速度吗?

0 投票
4 回答
3018 浏览

bioinformatics - Trim Illumina 读取 bam/sam 文件

我找到了很多用于以 fastq 格式修剪读取的工具,但是是否有任何可用于修剪已经对齐的读取的工具?