我有一系列数千个 HTML 文件,为了运行词频计数器的最终目的,我只对每个文件的特定部分感兴趣。例如,假设以下是其中一个文件的一部分:
<!-- Lots of HTML code up here -->
<div class="preview_content clearfix module_panel">
<div class="textelement "><div><div><p><em>"Portion of interest"</em></p></div>
</div>
<!-- Lots of HTML code down here -->
我应该如何在 c++ (boost::regex) 中使用正则表达式来提取示例中突出显示的特定文本部分并将其放入单独的字符串中?
我目前有一些代码可以打开 html 文件并将整个内容读入单个字符串,但是当我尝试运行boost::regex_match
查找特定的 line 开头时<div class="preview_content clearfix module_panel">
,我没有得到任何匹配。只要是在 c++ 上,我愿意接受任何建议。