1

使用strtokone 可以单独获取 para 中的每个标记。

我想单独捕获页面中的所有句子以分别处理它们。

一种解决方案是我保持 for 循环并检查每个字符,如果是,.那么我认为句子已完成,因此存储在某些数据结构中。I dont know which data structure is best suitable to store this. 数组还是向量?

有没有其他更好的方法或一些 c++ 类可以做到这一点?

更新

稍后我想对句子中的否定执行操作。意味着考虑not, no,nope这样的关键词。if not+ negative wordthen 把它当作 +ve 词。

4

1 回答 1

3

当您使用 C++ 时,存储字符串的最佳数据结构是std::string类。将多个字符串存储在一个std::vector<std::string>. 顺便说一句,不要使用strtokstd::getline而是使用。

但是当你在做文本操作时,也许是国际文本操作,你应该看看ICU库。在这种情况下icu::BreakIterator::createSentenceInstance尤其如此。

于 2013-12-01T07:02:45.990 回答