我有一个非常大的数据集(范围从 100,000 个元素到 250,000 个元素),我目前将数据存储在一个向量中,目的是搜索一组单词。给定一个短语(例如“on, para”),该函数应该找到以给定短语开头的所有单词并将所有匹配项推送到队列中。
为了找到第一个单词,我使用了似乎效果很好的二进制搜索,但是在找到第一个单词之后我就卡住了。我应该如何在元素之前和之后有效地迭代以找到所有相似的单词?输入是按字母顺序排列的,所以我知道所有其他可能的匹配都将在元素返回之前或之后发生。我觉得其中一定有一个<algorithm>
我可以利用的功能。以下是相关代码的一部分:
二分查找功能:
int search(std::vector<std::string>& dict, std::string in)
{
//for each element in the input vector
//find all possible word matches and push onto the queue
int first=0, last= dict.size() -1;
while(first <= last)
{
int middle = (first+last)/2;
std::string sub = (dict.at(middle)).substr(0,in.length());
int comp = in.compare(sub);
//if comp returns 0(found word matching case)
if(comp == 0) {
return middle;
}
//if not, take top half
else if (comp > 0)
first = middle + 1;
//else go with the lower half
else
last = middle - 1;
}
//word not found... return failure
return -1;
}
在main()
//for each element in our "find word" vector
for (int i = 0; i < input.size()-1; i++)
{
// currently just finds initial word and displays
int key = search(dictionary, input.at(i));
std::cout << "search found " << dictionary.at(key) <<
"at key location " << key << std::endl;
}