问题标签 [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
922 浏览

python - ValueError: int() 以 10 为底的无效文字:'' 错误发生在较大代码的一部分时,而不是单独发生时

上面的错误在我下面的代码中不断发生,但是它仅在较大程序的一部分时发生,当它自己运行时不会发生错误并且输出被写入 output_file。这个错误是什么意思,为什么它只发生在其他代码中?以下是我作为大型程序一部分的代码:

在这里它是独立的:

独立时输出为:

0 投票
2 回答
137 浏览

python - 使用 3 行作为值创建字典

我有我希望解析的 fastq 文件。下面显示了每个文件中 1 个“读取”数千个的示例:

我的目标是让它们出现在字典中,如下所示,每一行都被缩短了:

我在这里看到,您可以将一行声明为键,然后使用 next(filename) 命令将下一行用作值,因此尝试使用它,但有 3 个 next(filename) 条目,如下面的代码所示:

目前我收到以下错误:

有谁知道如何使此代码工作,如果不是替代方案?

整个脚本如下:

命令行使用:

0 投票
2 回答
134 浏览

bash - Bash 从存储在字符串中的目录列表中选择文件

我假设有 50 个文件夹,每个文件夹都有不同数量的文件对,这些文件是命令行工具的输入。

我需要做的是将文件分成它们各自的对(每个文件名一个 r 和一个 f),看起来像这样(一对):

我将使用它作为需要采用这种格式的输入

然后遍历所有对。

我试图这样做:

但我遇到了一个错误${ADDR[ ]}: bad substitution。您能否解释一下我真正想学习的方法。

编辑:

澄清一点:

这有点像我正在寻找的输出:

但没有重复:

0 投票
1 回答
751 浏览

python - 将 fastq 信息复制到新的 fastq 文件中

我正在尝试编写一个代码,该代码将打开一个 fasta 文件并从不同的 fastq 文件中提取读取名称(标题)、序列(seq)和质量分数(qual),只有在 fasta 文件中找到它时,并写入将 fastq 信息放入一个新的 fastq 文件中。但是,我在如何编写最后一部分时遇到了麻烦(我在代码中遇到问题的地方加粗了)。可能有人知道如何编写这部分,或者我可以在哪里找到有关如何在 python 中输入的信息?

到目前为止,我有:

0 投票
2 回答
3183 浏览

loops - 在 UNIX 中循环连接多对具有几乎相同名称的文件

我有一个非常基本的问题,但我无法得到解决方案。我在同一个目录中有多个文件,我想连接每对文件。名称是:

Sample1_R1_L001.fastq Sample1_R2_L001.fastq Sample2_R1_L001.fastq Sample2_R2_L001.fastq Sample3_R1_L001.fastq Sample3_R2_L001.fastq

(ETC...)

我想要的结果是按样本连接,比如 cat Sample1_R1_L001.fastq Sample1_R2_L001.fastq > Sample1_concat.fastq

我试过这个循环,找到 . -name " _R?_ "|读取文件时;做 "$file" R1 *.fastq "$file"_R2_L001.fastq > "$file"_merged.fastq

但它没有用。有什么想法吗?

0 投票
1 回答
73 浏览

bash - 将大文本文件合并在一起

我将许多文件(每个约 1 gig)合并到一个文件中,但合并的文件不完整。当将 b 连接到 a 时,b 会在中间的某个地方连接而不是结束。我正在运行的命令是:

也,或者

在我检查文件后,合并文件的大小比原始文件小,并且还在中间的某个地方连接。

谢谢

0 投票
1 回答
711 浏览

bioinformatics - 为什么 fastx_trimmer 认为我的 fastq 文件是未知文件格式?

我有一些来自 Illumina NextSeq 运行的 .fastq 文件。许多序列具有使映射它们复杂化的poly-A束。我想删除所有十个连续 A 的序列,并且一直在尝试使用 fastx_clipper 这样做,如下所示:

这导致了以下错误消息:

我不完全确定这意味着什么。我使用 head 查看了 fastq 文件:

据我所知,这看起来像是一个完全正常的 fastq 格式文件。谁能解释导致此错误的原因?谢谢!

0 投票
1 回答
118 浏览

bioinformatics - .cat.fastq 到 .cat.fasta 文件转换问题

我正在尝试将 fastq 转换为 fasta 而不先进行质量过滤。当我尝试使用 fastx 工具包运行此转换时,它会在遇到低质量基础并终止转换时给我一条错误消息,以便我的转换输出很早就结束。(错误表示质量分数低于-30)。

然后我尝试使用这个论坛之前发布的关于如何使用 sed 转换为 fasta 的 sed 解决方案。这条线是这样的:

我输入到终端的行是:

它吐出我想要的东西,但直接打印到终端中。

如何让这些信息不在终端上打印,而是打印到输出文件?

如何指定我希望输出进入的文件/文件名。谢谢。

0 投票
3 回答
350 浏览

bash - Bash:替换文件名的一部分

我有一个要在文件夹的所有文件上运行的命令,该命令的语法如下所示:

我想做的是一个脚本,它遍历任意文件夹中的所有文件,并使用输入文件名来创建相似但不同的输出文件名。文件名如下所示:

让输入起作用似乎很简单:

我尝试使用output=${f,.fastq,.bam}并使用它作为输出参数,但这不起作用。我得到的只是一个错误:line 3: ${f,.fastq,.bam}: bad substitution. 这是做我想做的事情的方式,还是我应该做其他事情?如果这是正确的方法,我做错了什么?

[编辑]:

感谢所有的答案!不过,一个额外的问题......如果我有这样命名的文件怎么办,而不是:

...我可以有任意数量的样本(sampleX),但它们都有两个与之关联的文件(_1_2)。该命令现在看起来像这样:

所以,仍然只有一个输出,我可以为它做类似的事情"${f/_[1-2].fastq/.bam}",但我不确定如何获得一个循环,每次只迭代一次,sampleX同时获取两个相关文件......想法?

[编辑#2]:

所以,这是最后一个成功的脚本!

0 投票
1 回答
51 浏览

perl - 将行从 2 个文件传递到同一个子例程

我正在学习如何将 perl 用于基因组学应用程序。我正在尝试清理成对的末端读取(1 个正向,1 个反向)。这些存储在 2 个文件中,但行匹配。我遇到的麻烦是让相关子例程从第二个文件中读取(我得到的警告是针对未初始化的值)。

这些文件设置在 4 行块(fastq)中,其中第一行是运行 ID,第二行是序列,第三行是“+”,第四行保存第 2 行中序列的质量值。

当它仅应用于一个文件时,我对这段代码没有真正的问题,但我认为我误解了如何处理多个文件。

非常感谢任何指导!

我在这种情况下的警告是这样的:在 ./pairedendtrim.pl 第 137 行第 4 行的减法 (-) 中使用未初始化的值 $thisline。