python - 从网络爬网输出中解析出特定文本

Question

我需要解析出 HTML 页面的这一部分并输出到 CSV 文件，然后让它等待下一个输出。当谈到正则表达式时，我不知所措。

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

</div><!-- end #content -->

我可以不用地址信息，但公司名称、ID （来自 url）、名字/姓氏（如果可能，还有头衔）、电子邮件、URL 和电话号码将非常有价值。谢谢！

score 3 · Accepted Answer

永远不要使用正则表达式来解析 HTML（或 XML、Json、CSV...）。

请改用BeautifulSoup，这是一个已经为此类任务编写的优秀库。

例子：

from bs4 import BeautifulSoup as BS
soup = BS(htmltext)
soup.h2.text
>>> 'Company Name'

python - 从网络爬网输出中解析出特定文本

1 回答 1

Related

Reference