我有一个像这样的简单 html 文件。事实上,我从 wiki 页面中提取了它,删除了一些 html 属性并转换为这个简单的 html 页面。
<html>
<body>
<h1>draw electronics schematics</h1>
<h2>first header</h2>
<p>
<!-- ..some text images -->
</p>
<h3>some header</h3>
<p>
<!-- ..some image -->
</p>
<p>
<!-- ..some text -->
</p>
<h2>second header</h2>
<p>
<!-- ..again some text and images -->
</p>
</body>
</html>
我使用 python 和这样的美丽汤阅读了这个 html 文件。
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("test.html"))
pages = []
我想做的是将此html页面分成两部分。第一部分将在第一个标题和第二个标题之间。第二部分将在第二个标题 <h2> 和 </body> 标记之间。然后我想将它们存储在一个列表中,例如。页。所以我可以根据 <h2> 标签从一个 html 页面创建多个页面。
关于我应该如何做到这一点的任何想法?谢谢..