假设我有一个 HTML 页面,如下所示:
<!-- This is the opening tag -->
<div class="content_text">
<div>Title</div>
<div>Author Name</div>
<div>Some complicated HTML elements correctly validated</div>
<b>Some more text</b>
<img ... />
<div> more and more text </div>
</div><!-- This is the correct closing tag -->
如何获取 div 的开头class="content_text"
和正确的结束标签之间的内容?
我尝试了正则表达式,但我找不到任何简单甚至困难的方法来做到这一点。
我尝试了XPath,但仍然无法获取内容。相反,我得到了外部 div 内的文本。