我正在使用 beautifulSoup4 开发网页刮板。我想获取文章的文字和图片,但是有一些问题!html代码是这样的:
<div>
some texts1
<br />
<img src="imgpic.jpg" />
<br />
some texts2
</div>
我得到了整个文本:
post_soup.get_text()
div
并像往常一样保存所有图像urllib2
最后我将它们保存在一个html页面中并将所有文本放在顶部和图像最后,但我想将它们保存在新的html页面中,就像我抓取它们的页面一样,我的意思是先some texts1
然后image
再some texts2
请问有什么建议吗?