问题标签 [fastq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 查找序列中不匹配的 DNA 条形码
我有这样的 36-nt 读取:atcttgttcaatggccgatcXXXXgtcgacaatcaa
在 fastq 文件中,XXXX 是不同的条形码。我想在文件中的确切位置(21 到 24)搜索条形码并打印序列中最多 3 个不匹配的序列而不是条形码。
例如:我有条码:aacg
在 fastq 文件中搜索位置 21 到 24 之间的条码,允许序列中有 3 个不匹配,例如:
我试图首先使用 awk 找到独特的线条并寻找不匹配的地方,但查找和找到它们对我来说非常乏味。
有什么快速的方法可以找到吗?
谢谢你。
bash - 在 bash 脚本中指定输入文件
我的问题是我正在编写的 bash 脚本。我需要为一个名为 STAR 的工具指定输入文件,该工具是用于生物信息学的校准器。它有一个标志--readFilesIn。在我的情况下,这需要两组以逗号分隔的多个文件(fastq 文件),两组用空格分隔;输入看起来像:
因为我想在下面使用的每组 fastq 文件的数量和名称都不同,其中 $files 是包含 fastq 文件的目录。
这会产生正确的格式,但对齐器不接受输入。我曾尝试写入文件并将其提供给它,但这也不起作用。在这种情况下,bash 的约定是什么?
提前谢谢了,
布鲁斯。
我怎样才能让矫正器接受这一点。它想要它,就像我的第一个例子一样。
linux - 与组捕获并行 sed
我必须处理一个大文件,并且一直在阅读有关并行命令的信息,以在使用 sed、sort 等时尝试使用多个核心处理器。所以我首先想改变每四个的第一行(因为这种文件的命名约定 - FastQ 格式)。
例如,这将是一组四人,我想修改第一行:
使用下一个命令,我完成了工作:
但是,当使用并行时,似乎无法识别组捕获括号:
删除反斜杠或使用 sed -r 命令告诉我:
任何人都可以对此有所了解吗?
非常感谢您
arrays - bash数组不起作用
我对生物信息学比较陌生,但我会尽力学习。我遇到了一个问题,我希望有人知道该怎么做,并向我解释用于多个文件的 bash 工具实际上是如何工作的。
我有一个包含 160 个 RNAseq 库的文件夹,解压后看起来像name.fastq
. 我想同时cutadapt
在所有这些上运行(一个将从我的库中删除所有适配器序列的软件);因此,对于一个库,命令如下所示:
所以我尝试制作一个 bash 数组循环,以便能够对我拥有的所有 160 个文件执行此操作,但它仍然无法正常工作。
python - .split() 在 python3 中创建一个空行
我正在尝试使用 python3 将“fastq”文件转换为制表符分隔的文件。这是输入:(第 1-4 行是我需要以制表符分隔格式打印的一条记录)。在这里,我试图将每条记录读入列表对象:
使用这个:
输出是:
我在输出的开头得到一个空行,我不明白为什么?我知道这可以通过很多其他方式完成,但我需要在学习 python 时找出原因。谢谢
python - 将多个列表合并到一个文本文件中
我是编码新手,在尝试制作自己的 fastq 掩码器时遇到了麻烦。第一个模块应该用 + 修剪行,将序列标题(以 > 开头)修改为行号,同时保留序列和质量行(分别为 A、G、C、T 行和 Unicode 分数) .
现在我的问题。我已经运行了这个并且没有出现错误,但是目标文件是空的。我想知道我做错了什么......是我处理列表的方式还是缺少.join?如果这是重复的,我很抱歉。只是我不知道这里有什么错误。另外,重要的注意事项...这不是一些家庭作业,我只需要一个掩蔽器来工作...非常感谢您提供任何帮助,并欢迎所有提及改进代码的内容。谢谢。
注意(fastq 格式):
编辑:仍然无法得到任何东西,但正在努力。
python - 一次读取 4 行
我正在尝试一次读取四行 fastq 文件。文件中有几行。但是当我输入我的代码时,我得到了这个:
回溯(最近一次通话最后):
文件“fastq.py”,第 11 行,在
line1 = fastq_file.readline()
AttributeError:“str”对象没有属性“readline”
这是我的代码:
我将如何解决它,以便我可以将每一行分配给一个字符串,然后将这些字符串写入一个文本文件中?
python - 从 fasta 文件中找到唯一的 fastq 文件的第一行和第一行
我有2个文件,一个是fasta
文件,另一个是fastq
文件。我想fasta
读取,读取每一行并搜索fastq
文件中的每一行并打印顶行和底行。这就是我所拥有的
快速文件
读1
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
@DH1DQQN1:269:C1UKCACXX:1:1107:20386:6577 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+
CCCFFFFFHGHHHJIJHFDDDB173@8815BDDB###############
@DH1DQQN1:269:C1UKCACXX:1:1114:5718:53821 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+ ;@?DBD<@@FFHHH<
@DH1DQQN1:269:C1UKCACXX:1:1209:10703:35361 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+
@@@FFFFFHGHHHGIJHFDDDDDBDD69@6B-707537BDDDB75@@85
@DH1DQQN1:269:C1UKCACXX:1:1210:18926:75163 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
@CCFFFFFHHHHHJJJHFDDD@77BDDDDB077007@B###########
从这里我们可以看到它AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
出现了两次,但我只想打印一次。我怎样才能做到这一点?
最终输出文件
@DH1DQQN1:269:C1UKCACXX:1:1107:20386:6577 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+
CCCFFFFFHGHHHJIJHFDDDB173@8815BDDB###############
@DH1DQQN1:269:C1UKCACXX:1:1114:5718:53821 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+
;@?DBD<@@FFHHH<
@DH1DQQN1:269:C1UKCACXX:1:1210:18926:75163 1:N:0:TTAGGC
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
+
@CCFFFFHHHHHJJJHFDDD@77BDDDDB077007@B
bash - 读取 unix 上的文件列表并运行命令
我对 shell 脚本很陌生,我整天都在努力弄清楚如何执行“for”命令。本质上,我想做的是以下几点:
我有一个包含一堆名称的 list.txt 文件:
对于列表中的每个名称,都有两个不同的文件,每个文件的名称都有不同的结尾。前任:
我试图运行的程序被称为sickle
. 基本上,它需要两个文件(彼此对应)并对它们进行分析,因此需要我有这个命名方案。镰刀命令如下:
如果有人可以帮助我,至少只是告诉我如何让 unix 读取文件列表并独立处理每一行,我想我可以从那里开始。我尝试了几件事,但都没有奏效。
pbs - 使用扭矩/PBS“不允许从主机访问”创建新队列
我已经执行了以下命令。
但是当我的 PBS 脚本有以下标题时,
我收到以下错误: