我正在寻找一个可以帮助我摆脱 HTML 标记但保留文本值的 python 模块。我之前尝试过 BeautifulSoup,但我不知道如何完成这个简单的任务。我尝试搜索可以执行此操作的 Python 模块,但它们似乎都依赖于在 AppEngine 上无法正常工作的其他库。
下面是来自 Ruby 的 sanitize 库的示例代码,这就是我在 Python 中所追求的:
require 'rubygems'
require 'sanitize'
html = '<b><a href="http://foo.com/">foo</a></b><img src="http://foo.com/bar.jpg" />'
Sanitize.clean(html) # => 'foo'
感谢您的建议。
-e