我们正在使用 IMAP4_SSL 和 python 从我们的 gmail 帐户中检索邮件。电子邮件正文以 html 格式检索。我们需要将其转换为纯文本。任何人都可以帮助我们吗?
sameera
问问题
369 次
1 回答
2
站在巨人的肩膀上…… Peter Bengtsson 在这里
找到了解决这个确切问题的方法。
Peter 的脚本使用了Leonard Richardson的BeautifulSoup
和 Fredrik Lundh 的unescape() 函数。
使用彼得的测试用例,你会得到:
This is a paragraph.
Foobar [1]
http://two.com
Visit http://www.google.com.
Text elsewhere. Elsewhere [2]
[1] http://one.com
[2] http://three.com
...由此:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<body>
<div id="main">
<p>This is a paragraph.</p>
<p><a href="http://one.com">Foobar</a>
<br />
<a href="http://two.com">two.com</a>
</p>
<p>Visit <a href="http://www.google.com">www.google.com</a>.</p>
<br />
Text elsewhere.
<a href="http://three.com">Elsewhere</a>
</div>
</body>
</html>
于 2009-06-04T06:05:17.167 回答