python - 将行转换为列

Question

我有一个如下行中的文件，并想转换为两列格式。

>00000_x1688514
TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968
TGCTTGGACTACATATTGTTGAGGGTTGTA
...

所需的输出是

>00000_x1688514 TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968 TGCTTGGACTACATATTGTTGAGGGTTGTA
...

我将不胜感激任何帮助。谢谢。

score 7 · Accepted Answer

我不知道您是否知道用于读/写和其他遗传功能的 BioPerl 模块。你的问题可以这样写。

#!/usr/bin/perl
use strict;
use warnings;
use Bio::SeqIO;

my $file = 'o33.txt';
my $in  = Bio::SeqIO->new( -file   =>  $file,
                           -format => 'fasta');

while ( my $seq = $in->next_seq() ) {
    print $seq->id, "\t", $seq->seq, "\n";
}

__END__
00000_x1688514  TGCTTGGACTACATATGGTTGAGGGTTGTA
00001_x238968   TGCTTGGACTACATATTGTTGAGGGTTGTA

score 6 · Accepted Answer

在蟒蛇中：

fd = open('filepath')
cols = izip(fd, fd)
with open('output_filepath') as outfile:
    for col in cols:
        outfile.write('\t'.join(col).replace('\n', '') +'\n')

所需的输出应该在output_filepath

score 2 · Accepted Answer

另一个 Perl 选项是将记录分隔符设置为 '>'，一次读取两行，然后用换行符替换制表符：

use Modern::Perl;

local $/ = '>';
do { s/\n/\t/; print }
  for <DATA>;

__DATA__
>00000_x1688514
TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968
TGCTTGGACTACATATTGTTGAGGGTTGTA

输出：

>00000_x1688514 TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968  TGCTTGGACTACATATTGTTGAGGGTTGTA

对于文件：

use Modern::Perl;
use autodie;

open my $inFile,  '<', 'inFile.txt';
open my $outFile, '>', 'outFile.txt';

local $/ = '>';
do { s/\n/\t/; print $outFile $_ }
  for <$inFile>;

close $inFile;
close $outFile;

希望这可以帮助！

score 1 · Accepted Answer

One approach:

perl -i -pe 's/\n/ / unless m/^[ACGT]+$/' FILENAME

This will in-place edit the file FILENAME, replacing a newline with a space in every line that isn't a string of A's, C's, G's, and T's.

score 0 · Accepted Answer

假设输入是真实FASTA格式，您可以使用awk和getline功能：

awk '/^>/ { printf "%s ", $0; getline; print }' file.txt

输出：

>00000_x1688514 TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968 TGCTTGGACTACATATTGTTGAGGGTTGTA

高温高压

score 0 · Accepted Answer

在 Ruby 中，我会使用类似的东西：

File.readlines('test.txt').map(&:strip).each_slice(2) do |row|
  puts row.join(' ')
end

哪个输出：

>00000_x1688514 TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968 TGCTTGGACTACATATTGTTGAGGGTTGTA

score 0 · Accepted Answer

使用awk：

awk '{ printf "%s", $0 (substr( $0, 1, 1 ) == ">" ? " " : ORS) }' infile

输出：

>00000_x1688514 TGCTTGGACTACATATGGTTGAGGGTTGTA
>00001_x238968 TGCTTGGACTACATATTGTTGAGGGTTGTA

score 0 · Accepted Answer

一个更整洁的 Python 解决方案：

from itertools import izip

with open('test.txt') as inf, open('newtest.txt', 'w') as outf:
    for head,body in izip(inf, inf):
        outf.write(head.rstrip() + ' ' + body)

python - 将行转换为列

8 回答 8

Related

Reference