我有以下排序数据:
AAA
AAA
TCG
TTT
TTT
TTT
我想计算每个字符串的出现次数:
AAA 2
TCG 1
TTT 3
我知道我可以使用 来做到这一点uniq -c
,但在这里我需要对我拥有的整个 C++ 代码进行额外处理。
我坚持这个结构(根据'pgras'建议修改):
#include <iostream>
#include <vector>
#include <fstream>
#include <sstream>
using namespace std;
int main ( int arg_count, char *arg_vec[] ) {
if (arg_count !=2 ) {
cerr << "expected one argument" << endl;
return EXIT_FAILURE;
}
string line;
ifstream myfile (arg_vec[1]);
if (myfile.is_open())
{
int count;
string lastTag = "";
while (getline(myfile,line) )
{
stringstream ss(line);
string Tag;
ss >> Tag; // read first column
//cout << Tag << endl;
if (Tag != lastTag) {
lastTag = Tag;
count = 0;
}
else {
count++;
}
cout << lastTag << " " << count << endl;
}
cout << lastTag << " " << count << endl;
myfile.close();
}
else {cout << "Unable to open file";}
return 0;
}
它打印出这个错误的结果:
AAA 0
AAA 1
TCT 0
TTT 0
TTT 1
TTT 2
TTT 2