如何使用正则表达式解析大文件(使用re
模块),而不将整个文件加载到字符串(或内存)中?内存映射文件无济于事,因为它们的内容无法转换为某种惰性字符串。该re
模块仅支持字符串作为内容参数。
#include <boost/format.hpp>
#include <boost/iostreams/device/mapped_file.hpp>
#include <boost/regex.hpp>
#include <iostream>
int main(int argc, char* argv[])
{
boost::iostreams::mapped_file fl("BigFile.log");
//boost::regex expr("\\w+>Time Elapsed .*?$", boost::regex::perl);
boost::regex expr("something usefull");
boost::match_flag_type flags = boost::match_default;
boost::iostreams::mapped_file::iterator start, end;
start = fl.begin();
end = fl.end();
boost::match_results<boost::iostreams::mapped_file::iterator> what;
while(boost::regex_search(start, end, what, expr))
{
std::cout<<what[0].str()<<std::endl;
start = what[0].second;
}
return 0;
}
来证明我的要求。我使用 C++(和 boost)编写了一个简短的示例,这与我希望在 Python 中使用的相同。