我正在尝试从网页中提取一些联系方式,并使用 Beautiful Soup 成功提取了一些信息。
但我无法提取一些数据,因为它没有正确构造(html)。所以我使用正则表达式。但是最后几个小时我正在尝试学习正则表达式,我有点震惊。
InstanceBeginEditable name="additional_content"
<h1>Contact details</h1>
<h2>Diploma coordinator</h2>
Mr. Matthew Schultz<br />
<br />
610 Maryhill Drive<br />
Green Bay<br />
WI<br />
United States<br />
54303<br />
Contact by email</a><br />
Phone (1) 920 429 6158
<hr /><br />
我需要提取,
马修·舒尔茨先生
610 Maryhill Drive 绿湾 WI 美国 54303
和电话号码。我尝试了从谷歌搜索中找到的东西。但是没有一个有效(因为我的知识很少,但这是我最后的努力。
con = ""
for content in contactContent.contents:
con += str(content)
print con
address = re.search("Mr.\b[a-zA-Z]", con)
print str(address)
有时我没有。
请帮助伙计们!
PS。内容在网络上免费提供 没有侵犯版权。