python - 使用 beautifulsoup 查找下一个兄弟姐妹，直到某个兄弟姐妹

Question

网页是这样的：

<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>

<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>

我怎样才能找到其中包含文章的每个部分？即找到h2后，找到nextsiblings

直到下一个 h2。

如果网页是这样的：（通常是这种情况）

<div>
<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>

<div>
<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>

我可以编写如下代码：

for section in soup.findAll('div'):
...
    for post in section.findAll('p')

但是，如果我想获得相同的结果，我应该如何处理第一个网页？

score 11 · Accepted Answer

我认为你可以这样做：

for section in soup.findAll('h2'):
    nextNode = section
    while True:
        nextNode = nextNode.nextSibling
        try:
            tag_name = nextNode.name
        except AttributeError:
            tag_name = ""
        if tag_name == "p":
            print nextNode.string
        else:
            print "*****"
            break

鉴于：

<h2>section1</h2>
<p>article1</p>
<p>article2</p>
<p>article3</p>

<h2>section2</h2>
<p>article4</p>
<p>article5</p>
<p>article6</p>

输出：

article1
article2
article3
*****
article4
article5
article6
*****

score 3 · Accepted Answer

next_siblings 迭代器在这里也很有帮助：

for i in soup.find_all('h2'):
    for sib in i.next_siblings:
        if sib.name == 'p':
            print(sib.text)
        elif sib.name == 'h2':
            print ("*****")
            break

python - 使用 beautifulsoup 查找下一个兄弟姐妹，直到某个兄弟姐妹

2 回答 2

Related

Reference