我正在为我的学校做一个项目,我想在其中比较诈骗邮件。我找到了这个网站:http ://www.419scam.org/emails/ 现在我想做的是将每个骗局保存在单独的文件中,然后我可以分析它们。到目前为止,这是我的代码:
import BeautifulSoup, urllib2
address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()
这以文本格式保存了整个 html 文件,现在我想剥离文件并将 html 链接的内容保存到骗局:
<a href="2011-12/01/index.htm">01</a>
<a href="2011-12/02/index.htm">02</a>
<a href="2011-12/03/index.htm">03</a>
等等
如果我明白了,我仍然需要更进一步并打开保存另一个href。知道如何在一个 python 代码中做到这一点吗?
谢谢!