网页是这样的:
<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>
<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>
我怎样才能找到其中包含文章的每个部分?即找到h2后,找到nextsiblings
直到下一个 h2。
如果网页是这样的:(通常是这种情况)
<div>
<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>
<div>
<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>
我可以编写如下代码:
for section in soup.findAll('div'):
...
for post in section.findAll('p')
但是,如果我想获得相同的结果,我应该如何处理第一个网页?