1

如何在 bs4 中提取 div 的内容:

>>> Doc
<div class="document">
<p>Text.</p>
<p>More text</p>
</div>

>>> type(Doc)
bs4.element.Tag

我想得到

<p>Text.</p>
<p>More text</p>
4

2 回答 2

1

使用.contents

>>> Doc = soup.find('div', {'class': 'document'}) # assuming soup is your main content
>>> for i in [x for x in Doc.contents if x != '\n']:
...     print i
... 
<p>Text.</p>
<p>More text</p>
于 2013-06-25T11:40:20.360 回答
0

要获取 div 的全部内容,无论其中包含哪些元素,请使用soup.find("div").prettify()有效地获取内部 HTML。

于 2013-06-25T11:44:39.450 回答