问题标签 [fastq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 更改 fastq 标头并用 BioPython 写回时出错
我正在尝试使用后缀 /1 和 /2 更改 fastq 标头并写回新的 fie。但是,我收到了这个错误:
有没有办法解决这个问题?我是否需要修改质量分数信息以匹配更改的 fastq 标头?
python - Biopython SeqIO:如何编写修改后的 SeqRecord 标头
我想我会尝试使用 Biopython 来挽救合作者提供的一些容易损坏的 fastq 文件。@
我只需要修改包含某个子字符串的标题行(以 开头)。但是,以下代码创建的新 fastq 文件并没有改变。毫无疑问,我遗漏了一些明显的东西。
编写修改后的 fastq SeqRecord 的正确方法是什么?
输入数据(两条记录,标题行以 开头@
):
makefile - 并行运行makefile时仅创建一次目录
我正在使用 make 编写用于生物数据分析的管道。我的项目目录是:
我当前的 makefile 使用通配符来列出 DATA 目录中所有 .FASTQ 文件的目录。使用模式规则,每个 .FASTQ 文件然后通过一系列配方,最终输出文件写入 RESULTS 目录。相反,我想为每个 SAMPLE 创建一个目录,用于写入最终输出文件:
我可以通过让第一个配方创建目录来做到这一点,但是当来自同一个 SAMPLE 的第二个 FASTQ 文件也尝试创建目录时,这会引发错误。一些关于堆栈溢出的帖子建议在 mkdir 上使用 -p 标志来忽略错误,但是当我使用 -j 标志并行运行 makefile 时,这显然会导致问题。我考虑过在makefile开始时强制运行一个shell脚本,检查结果目录是否存在,如果不存在,那么它应该创建它们,但我想尝试使用make来解决这个问题。
regex - 无法让 bash 匹配 if 语句中由 [[ ]] 分隔的正则表达式中的空格
我正在开发一个简单的脚本来逐行读取文件,评估每一行的内容,并根据行号处理行数据。出于某种原因,我无法获得与空格匹配的正则表达式。[:space:], [[:space:]], [:blank:], \s, \ , , 和 " " 都失败了。
我的数据格式如下(fastq格式):
我想将其重新格式化为:
然而,重要的是,在将其打印到新文件之前,我会检查每一行以确保其格式正确。我上次生成重新格式化文件的尝试在文件末尾产生了一些非常奇怪的结果。我的代码是:
我收到错误消息:
关于如何在正则表达式 if 语句中匹配空格的任何建议,最好只匹配空格和制表符而不是换行符。
sed - 使用 sed cammand 从 Fastq 文件头替换模式
我有一个 fastq 文件,我需要根据 trinity 的需要编辑它的标题。我的标题是这样的:
- @SRR1561197。1 .1 HWI-ST1379:100:C29NPACXX:7:1101: 2115:2122 长度=102
- @SRR1561197。2 .1 HWI-ST1379:100:C29NPACXX:7:1101: 2202:2120 长度=102
- @SRR1561197。3 .1 HWI-ST1379:100:C29NPACXX:7:1101: 2319:2125 长度=102
- @SRR1561197。4 .1 HWI-ST1379:100:C29NPACXX:7:1101: 2510:2121 长度=102
在上面的标题中,粗体文本随着每个标题而不断变化,其他文本保持不变。现在我希望用导致以下标题的模式一次性替换所有标题:
我使用了以下命令,但它没有改变任何东西:
请帮助任何人?
perl - FASTQC 修剪后如何配对 Fastq 文件?
我使用下面的脚本来配对它,但它给出了错误。谁能帮我配对我的文件?我的文件如下所示:
我的代码
################################################# ############################
awk - 从 FASTQ 文件中提取 ID 和序列
我正在尝试操作 Fastq 文件。它看起来像这样:
我的预期输出是:
因此,ID 行是以@HWUSI 开头的行(即@HWUSI-EAS610:1:1:7:1951#0/1)。每个ID 之后都有一行及其序列。现在,我想获得一个仅包含每个 ID 及其对应序列的文件,并且该序列应该是反向和互补的。(A=T, T=A, C=G, G=C) 用 Sed I 可以得到所有与命令反向互补的序列
我怎样才能获得相应的ID?
bash - 从 Fastq 文件中提取特定信息以进行测序分析
我的目标是从基因组测序 Fastq 文件中提取数据片段并绘制它们。我想获得每个测序读数的识别信息,然后是关于读数的两条信息。
下面我粘贴了两个从 Fastq 文件读取的内容以供参考,如果有帮助的话。
上面,您可以看到每个读取都以进行读取的染色体编号开始,以及读取在第 1 列和第 2 列中该染色体上的位置。在第 4 列中有参考碱基对,第 5 列包含变体读。然后在第 8 列中还有一堆关于读取的其他信息,其中每个部分用分号分隔。
我在这里关心的两个数字是:RO=
和AO=
。
我想创建一个仅包含 1、2、4、5 列信息的输出文件,然后将 AO/RO 的分数放入最后一列。
作为从第一行开始的输出示例,我想要以下输出:
其中 0.74838 由 RO=39 和 AO=116 计算得出,因此 116/(39+116)=0.74838。并且由 RO=84660 和 AO=120 计算,因此 120/(84660+120)=0.00142
希望这可以澄清我正在寻找的输出。
bash - 将来自 VCF 测序数据的等位基因频率合并在一起
我有一个测序数据文件,其中包含来自基因组的碱基对位置,如下例所示:
我想比较由第 2 列中找到的 bp 位置定义的某些组。然后我想要匹配区域第 5 列中数字的平均值。
因此,使用上面的示例,假设我正在寻找跨越 chr1 810-820 和 chr2 310-330 的所有样本的第 5 列的平均值。前五行应该被识别,它们的第 5 列数应该被平均,等于 0.42。
我尝试创建一个范围数组,然后使用 awk 调用这些位置,但没有成功。提前致谢。
r - 在 bash 或 R 中翻译每个第 N 个字符串的有效方法
感谢您花时间看这个。
我有一个 fastq 文件,我想把它翻译成互补,而不是反向互补,像这样:
翻译成
我使用的代码是:
它有效!但是这种方法很慢,即使是小文件(250M)。我想知道哪种其他方式可以更快地完成这项工作,不管这是在 R 还是 bash 或类似的。
(我查看了 BioStrings 但我只发现了反向互补功能,并且标题中的“@”而不是“>”存在一些问题)