问题标签 [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
587 浏览

r - 从R中的vcountPattern中提取正命中序列

我进行了小RNA测序并尝试分析结果fastq文件。

首先,我使用 ShortRead 包将 fastq 文件导入 R 并转换为 DNAstringSet

为了查找包含特定序列字符串的读取,我使用了来自 Biostrings 库的 vcountPattern。为了我的分析目的,我必须允许突变和插入缺失。

我可以从这里做的是计算包含“TCTGCATTTAAGGCAAGTT”的读取次数

它返回

[1] 11500

所以有 11500 个包含“TCTGCATTTAAGGCAAGTT”的序列读取

但最重要的是,我想要的是从 fastq 文件中提取对应于 11500 读取的实际序列。

我怎样才能做到这一点?

如果我只是这样做,它会给出一堆“0”,少量的“1”,很少的“2”。所以我相信这基本上是一个与每次读取的命中数相对应的向量。

我尝试使用此信息提取序列信息,但无法实现。

任何帮助表示赞赏!

0 投票
3 回答
678 浏览

awk - 我正在尝试比较两个 fastq 文件(配对读取),打印另一个文件的行号 n

我正在尝试比较两个 fastq 读取(配对读取),以便将 file1.fastq 中模式匹配的位置(考虑行号)与 file2.fastq 进行比较。我想打印 file2.fastq 中相同位置或行号的内容。我正在尝试通过 awk 做到这一点。前任。如果我的模式匹配位于文件 1 的第 200 行,我想看看文件 2 的第 200 行有什么。对此表示赞赏。

0 投票
1 回答
447 浏览

biopython - FastqGeneralIterator 输出

我正在使用 FastqGeneralIterator,但我发现它从 fastq 文件的第一行中删除了 @ 以及第三行的信息(它删除了整个第三行)。我通过以下方式在第一行添加了@:

我还想添加第 3 行,它以 + 开头,之后没有任何内容。例如:

有人能帮我吗?

0 投票
2 回答
642 浏览

bash - combine GNU parallel with nested for loops and multiple variables

I have n folders in destdir. Each folder contains two files: *R1.fastq and *R2.fastq. Using this script, it will do the job (bowtie2) one by one and output {name of the sub folder}.sam in the destdir.

I want to use gnu parallel tool to speed this up, can you help? Thanks.

0 投票
0 回答
243 浏览

bash - 连接目录中的fastq文件

我有一个文件上传器,resumable.js,它接收一个文件并将其分成 1MB 的“块”,然后一次发送 1MB 的文件。因此,在上传后,我有一个目录,其中包含数千个,有时甚至是数百万个单独的 fastq 文件。我可以使用这行代码将所有这些“块”连接回文件的原始状态。

如果不在命令行中手动运行此脚本,我将如何将文件连接回其原始状态?我应该设置一些 bash 脚本来处理这个问题,也许是一个 cronjob?非常感谢任何解决此问题的想法。

回答:为了它的价值,我使用了这个 npm 模块,它工作得很好。 https://www.npmjs.com/package/joiner

0 投票
5 回答
425 浏览

python - Python - 检查两个巨大文本文件之间的一致性

所以,这个让我很难受!
我正在处理巨大的文本文件,我的意思是 100Gb+。具体来说,它们采用fastq 格式。这种格式用于 DNA 测序数据,由四行记录组成,如下所示:

为了这个问题,只关注标题行,以“@”开头。

因此,出于 QA 的目的,我需要比较两个这样的文件。这些文件应该有匹配的标题,所以另一个文件中的第一条记录也应该有标题'@REC1',下一个应该是'@REC2'等等。在我进行大量下游分析之前,我想确保情况确实如此。
由于文件很大,一个简单的迭代字符串比较会花费很长时间,但是这个 QA 步骤会运行很多次,我不能等那么久。所以我认为更好的方法是从文件中的几个点采样记录,例如每 10% 的记录。如果记录的顺序搞砸了,我很可能会发现它。
到目前为止,我已经能够通过估计文件大小而不是使用 python 来处理这些文件file.seek()访问文件中间的记录。例如,要访问大约在中间的一行,我会这样做:

但是现在问题更复杂了,因为我不知道如何在两个文件之间进行协调,因为字节位置不是文件中行索引的指示符。换句话说,我如何访问两个文件中的第 10,567,311 行以确保它们相同,而无需遍历整个文件?

将不胜感激任何想法\提示。也许并行迭代?但究竟如何?
谢谢!

0 投票
1 回答
1977 浏览

python - BioPython:IOError:[Errno 2] 没有这样的文件或目录

我正在尝试将 FASTQ(从 Illumina Miseq 配对基因组序列生成)文件转换为 FASTA,并最终使用带注释的参考序列将其转换为 Genbank。我正在遵循 Biopython 教程中的说明。这是我的代码和错误。

0 投票
1 回答
107 浏览

r - 未检测到或不支持 Rqc 文件格式

我想上传一个 fastq 文件并使用 Rqc 包特别是 rqcQA 函数渲染一些图。

这是代码:

读取输入时出现错误:

'rqcQA':FUN 中的错误(X[[i]],...):未检测到或支持文件格式:0

当我用变量替换时inFile$datapathfolder我没有收到任何错误:

我做了一些研究,我在 Github 中找到了源代码,detectFileFormat.R是包含指定类型格式的函数的文件。

任何帮助将不胜感激。

0 投票
3 回答
77 浏览

bash - Grep 使用 -A 和 -B 标志输出奇怪字符以进行 fastq 分析

我有一个看起来像这样的文件:

我正在使用以下 grep 命令:

输出看起来像这样,您可以在第 5 行和第 10 行看到输出了两个破折号,我不希望这样:

有没有办法在第 5 行和第 10 行不带破折号输出?

0 投票
2 回答
52 浏览

list - 如何在python中组合随机数量的列表

我正在开发一个程序,该程序通过FASTQ文件读取并给出该文件中每个序列的 N 数量。我设法得到每行 N 的数量,并将它们放在一个列表中。问题是我需要一个列表中的所有数字来汇总文件中 N 的总数,但它们会打印在自己的列表中。

这是我的输出,列表和列表中的总金额。我已经看到了手动组合列表的方法,但是一个可以有数百个序列,所以这是不行的。

这就是我的代码,另一个函数选择行。

我希望有人可以帮助我。先感谢您。