C++ 代码:
struct bigram_key{
int i, j;// words - indexes of the words in a dictionary
// a constructor to be easily constructible
bigram_key(int a_i, int a_j):i(a_i), j(a_j){}
// you need to sort keys to be used in a map container
bool operator<(bigram_key const &other) const{
return i<other.i || (i==other.i && j<other.j);
}
};
struct bigram_data{
int count;// n(ij)
map<int, int> trigram_counts;// n(k|ij) = trigram_counts[k]
}
map<bigram_key, bigram_data> trigrams;
字典可以是所有找到的单词的向量,例如:
vector<string> dictionary;
但为了更好地查找 word->index 它可能是一个地图:
map<string, int> dictionary;
当你读到一个新词。您将它添加到字典并获取它的 index k
,您已经拥有前两个单词i
的j
索引,所以您只需执行以下操作:
trigrams[bigram_key(i,j)].count++;
trigrams[bigram_key(i,j)].trigram_counts[k]++;
为了获得更好的性能,您可以只搜索一次 bigram:
bigram_data &bigram = trigrams[bigram_key(i,j)];
bigram.count++;
bigram.trigram_counts[k]++;
可以理解吗?您需要更多详细信息吗?