问题标签 [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2613 浏览

python - 如何创建索引来解析大文本文件

我有两个 FASTQ 格式的文件 A 和 B,它们基本上是以 @ 开头的 4 行一组的几亿行文本,如下所示:

我需要比较

文件 A 和 B 之间的部分,并在文件 B 中写入与新文件匹配的 4 行组。我在python中有一段代码可以做到这一点,但仅适用于小文件,因为它为文件A中的每个@-line解析文件B的整个@-行,并且两个文件都包含数亿行。

有人建议我应该为文件 B 创建一个索引;我在谷歌上四处搜索但没有成功,如果有人能指出如何做到这一点或让我知道一个教程以便我可以学习,我将不胜感激。谢谢。

==EDIT==理论上每组4行应该在每个文件中只存在一次。如果在每次比赛后打破解析,它会提高速度还是完全需要不同的算法?

0 投票
1 回答
323 浏览

c - glib 命令行解析顺序是否敏感?

glib 的命令行选项解析顺序是否敏感?在下面的代码中,我在数组--foo之前定义了选项。解析将两者都设置为真,但仅设置为真。我如何让它忽略顺序,因为无序选项是 *nix afaik 中的规范。--barGOptionEntry--foo --bar--bar --foofoo

结果:

0 投票
1 回答
190 浏览

perl - 尝试使用 PBS::Client 运行脚本时出现 open3-error

我正在尝试使以下 perl 脚本正常工作。首先,读取一个 fastq 文件,然后使用该文件被许多程序分析。

代码:

但是,当尝试通过 Linux 命令行执行时,它会给出以下错误消息:

错误消息指向PBS Client模块中的这段代码:

有人知道这意味着什么吗?

编辑
经过一番调查,这条线似乎失败了:$client -> qsub($job); 但我不知道为什么。任何想法我做错了什么?


最终编辑:

所以,我们终于找到了问题的真正原因。事实证明,PBS::Client我们所做的最新安装出现了问题。所以我们恢复到旧版本,问题就消失了!

0 投票
2 回答
53 浏览

bash - 获取不同的输出文件

我正在使用这些文件进行测试:

我想获取在第一个 _ (下划线)之前具有相同代码的文件,并将代码 R1 放在不同的输出文件中。应根据代码调用输出文件,直到第一个 _(下划线)。

- 这是我的代码,但我在制作输出文件时遇到了麻烦。

- 我想要两个输出:

一个输出将包含以下所有行:

它的名字应该是comp900_R1.out

另一个输出将包含以下行:

它的名字应该是comp995_R1.out

最后,正如我所说,这是一个小测试。我希望我的脚本可以处理许多具有相同特征的文件。

0 投票
1 回答
955 浏览

bash - fastq 文件中的修剪序列和质量

我在目录中有一堆 fastq 文件,我想将序列修剪 2 个核苷酸和质量(如果读取有 51 个碱基对并且以 CTG 或 TTG 结尾)。

这是我写的 shell 脚本,但我遇到了一些错误,需要帮助,因为我是 shell 脚本的新手

输入:

输出:

脚本:

0 投票
3 回答
6611 浏览

python - 将 fastq 文件读入字典

我有一个这样的 fastq 文件(文件的一部分):

FASTQ 文件每个序列使用四行。第 1 行以“@”字符开头,后跟序列标识符。第 2 行是 DNA 序列字母。第 3 行以“+”字符开头。第 4 行编码第 2 行中序列的质量值(“+”之后和下一个“@”之前的部分,并且必须包含与序列中的字母相同数量的符号。

我想把fastq文件读成这样的字典(关键是DNA序列,值是质量值,“@”和“+”开头的行可以去掉):

我编写了以下代码,但它没有给我想要的东西。谁能帮我修复/改进我的代码?

0 投票
3 回答
131 浏览

awk - 尝试在 sed 或 awk 中使用变量

我有 2 个单独的文本文件,每个文件的格式完全相同。我可以 grepFILE1.txt查找特定的搜索词并输出每个匹配项的行号。行号以数字顺序输出到文件或变量。

我想使用每个行号并将该行从FILE2.txt数字顺序打印到单个OUTPUT.txt. 有谁知道一种方法,使用awksed做到这一点?

我有一个值为 25 26 27 28 的字符串变量 $linenumbers。

我使用以下命令:

对于 $linenumbers 中的 i;做 sed -n "/$I/p" $i test_read2.fastq >> test.fastq; 完毕。

我得到错误

sed: 无法读取 25: 没有这样的文件或目录

sed: 无法读取 26: 没有这样的文件或目录

sed: 无法读取 27: 没有这样的文件或目录

sed: 无法读取 28: 没有这样的文件或目录

如果我一个一个地执行这个 sed 命令,我可以从文件中提取第 25、26、27 和 28 行,并使用以下命令将其打印到文件中;

sed -n "25p" test_read2.fastq >> test.fastq

我想用变量替换“25p”,这样它就可以从文件中提取多行(25、26、27、28),而无需一一进行...

0 投票
1 回答
74 浏览

makefile - 清理冗余文件

好吧,我有一个管道,它在 makefile 的帮助下为我运行一些数据。这个管道创建了大量我想要清理的冗余文件。

我有 1 个 makefile 来运行管道。并且管道本身连接到许多其他生成文件。所以我将此代码添加到管道chipcap.mk文件中:

现在我像这样运行我的文件make -f run_samples.mk 这个脚本将调用管道并开始分别运行所有样本 run_samples.mk 给管道的命令是:

我怎么能对 run_samples.mk 说也应该执行 cleanintermediate(在chipcap.mk 中)。我一直很困惑,但找不到正确的方法。

0 投票
1 回答
83 浏览

python - 检查我的元组代码

所以我正在尝试处理一个 FastQ 序列,但我是 Python 的初学者,我对如何完成我的代码有点困惑。这是程序应该执行的操作:

如果我输入 FASTQ seqname 行...

...然后程序将输出:

这是我的(不完整的)代码:

0 投票
1 回答
120 浏览

python - FastQ 编程错误

所以我试图解析一个 FastQ 序列,但我是 Python 的初学者,我对我的代码为什么不起作用感到有点困惑。这是程序应该执行的操作:

如果我输入 FASTQ seqname 行...

...那么程序应该输出:

到目前为止,这是我未完成的代码: