问题标签 [fastq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ValueError: int() 以 10 为底的无效文字:'' 错误发生在较大代码的一部分时,而不是单独发生时
上面的错误在我下面的代码中不断发生,但是它仅在较大程序的一部分时发生,当它自己运行时不会发生错误并且输出被写入 output_file。这个错误是什么意思,为什么它只发生在其他代码中?以下是我作为大型程序一部分的代码:
在这里它是独立的:
独立时输出为:
python - 使用 3 行作为值创建字典
我有我希望解析的 fastq 文件。下面显示了每个文件中 1 个“读取”数千个的示例:
我的目标是让它们出现在字典中,如下所示,每一行都被缩短了:
我在这里看到,您可以将一行声明为键,然后使用 next(filename) 命令将下一行用作值,因此尝试使用它,但有 3 个 next(filename) 条目,如下面的代码所示:
目前我收到以下错误:
有谁知道如何使此代码工作,如果不是替代方案?
整个脚本如下:
命令行使用:
bash - Bash 从存储在字符串中的目录列表中选择文件
我假设有 50 个文件夹,每个文件夹都有不同数量的文件对,这些文件是命令行工具的输入。
我需要做的是将文件分成它们各自的对(每个文件名一个 r 和一个 f),看起来像这样(一对):
我将使用它作为需要采用这种格式的输入
然后遍历所有对。
我试图这样做:
但我遇到了一个错误${ADDR[ ]}: bad substitution
。您能否解释一下我真正想学习的方法。
编辑:
澄清一点:
这有点像我正在寻找的输出:
但没有重复:
python - 将 fastq 信息复制到新的 fastq 文件中
我正在尝试编写一个代码,该代码将打开一个 fasta 文件并从不同的 fastq 文件中提取读取名称(标题)、序列(seq)和质量分数(qual),只有在 fasta 文件中找到它时,并写入将 fastq 信息放入一个新的 fastq 文件中。但是,我在如何编写最后一部分时遇到了麻烦(我在代码中遇到问题的地方加粗了)。可能有人知道如何编写这部分,或者我可以在哪里找到有关如何在 python 中输入的信息?
到目前为止,我有:
loops - 在 UNIX 中循环连接多对具有几乎相同名称的文件
我有一个非常基本的问题,但我无法得到解决方案。我在同一个目录中有多个文件,我想连接每对文件。名称是:
Sample1_R1_L001.fastq Sample1_R2_L001.fastq Sample2_R1_L001.fastq Sample2_R2_L001.fastq Sample3_R1_L001.fastq Sample3_R2_L001.fastq
(ETC...)
我想要的结果是按样本连接,比如 cat Sample1_R1_L001.fastq Sample1_R2_L001.fastq > Sample1_concat.fastq
我试过这个循环,找到 . -name " _R?_ "|读取文件时;做 "$file" R1 *.fastq "$file"_R2_L001.fastq > "$file"_merged.fastq
但它没有用。有什么想法吗?
bash - 将大文本文件合并在一起
我将许多文件(每个约 1 gig)合并到一个文件中,但合并的文件不完整。当将 b 连接到 a 时,b 会在中间的某个地方连接而不是结束。我正在运行的命令是:
也,或者
在我检查文件后,合并文件的大小比原始文件小,并且还在中间的某个地方连接。
谢谢
bioinformatics - 为什么 fastx_trimmer 认为我的 fastq 文件是未知文件格式?
我有一些来自 Illumina NextSeq 运行的 .fastq 文件。许多序列具有使映射它们复杂化的poly-A束。我想删除所有十个连续 A 的序列,并且一直在尝试使用 fastx_clipper 这样做,如下所示:
这导致了以下错误消息:
我不完全确定这意味着什么。我使用 head 查看了 fastq 文件:
据我所知,这看起来像是一个完全正常的 fastq 格式文件。谁能解释导致此错误的原因?谢谢!
bioinformatics - .cat.fastq 到 .cat.fasta 文件转换问题
我正在尝试将 fastq 转换为 fasta 而不先进行质量过滤。当我尝试使用 fastx 工具包运行此转换时,它会在遇到低质量基础并终止转换时给我一条错误消息,以便我的转换输出很早就结束。(错误表示质量分数低于-30)。
然后我尝试使用这个论坛之前发布的关于如何使用 sed 转换为 fasta 的 sed 解决方案。这条线是这样的:
我输入到终端的行是:
它吐出我想要的东西,但直接打印到终端中。
如何让这些信息不在终端上打印,而是打印到输出文件?
如何指定我希望输出进入的文件/文件名。谢谢。
bash - Bash:替换文件名的一部分
我有一个要在文件夹的所有文件上运行的命令,该命令的语法如下所示:
我想做的是一个脚本,它遍历任意文件夹中的所有文件,并使用输入文件名来创建相似但不同的输出文件名。文件名如下所示:
让输入起作用似乎很简单:
我尝试使用output=${f,.fastq,.bam}
并使用它作为输出参数,但这不起作用。我得到的只是一个错误:line 3: ${f,.fastq,.bam}: bad substitution
. 这是做我想做的事情的方式,还是我应该做其他事情?如果这是正确的方法,我做错了什么?
[编辑]:
感谢所有的答案!不过,一个额外的问题......如果我有这样命名的文件怎么办,而不是:
...我可以有任意数量的样本(sampleX
),但它们都有两个与之关联的文件(_1
和_2
)。该命令现在看起来像这样:
所以,仍然只有一个输出,我可以为它做类似的事情"${f/_[1-2].fastq/.bam}"
,但我不确定如何获得一个循环,每次只迭代一次,sampleX
同时获取两个相关文件......想法?
[编辑#2]:
所以,这是最后一个成功的脚本!
perl - 将行从 2 个文件传递到同一个子例程
我正在学习如何将 perl 用于基因组学应用程序。我正在尝试清理成对的末端读取(1 个正向,1 个反向)。这些存储在 2 个文件中,但行匹配。我遇到的麻烦是让相关子例程从第二个文件中读取(我得到的警告是针对未初始化的值)。
这些文件设置在 4 行块(fastq)中,其中第一行是运行 ID,第二行是序列,第三行是“+”,第四行保存第 2 行中序列的质量值。
当它仅应用于一个文件时,我对这段代码没有真正的问题,但我认为我误解了如何处理多个文件。
非常感谢任何指导!
我在这种情况下的警告是这样的:在 ./pairedendtrim.pl 第 137 行第 4 行的减法 (-) 中使用未初始化的值 $thisline。