我需要在服务器端在运行时从随机网页中提取纯文本。我使用 Google App Engine 和 Readability python 端口。其中有很多。
- gfxmonk的早期版本,基于 BeautifulSoup
- minvolai基于 gfxmonk 的版本,除了使用 lxml 而不是 BeautifulSoap,使其(根据 minvolai,参见项目页面)更快,尽管引入了对 lxml 的依赖。
- Yuri Baburov 又名 Buriy 的版本。与 minvolai 相同,取决于 lxml。还取决于chardet 来检测编码。
我使用 Yuri 的版本,因为它是最新的,并且似乎正在积极开发中。我设法使用 Python 2.7 让它在 Google App Engine 上运行。现在的“问题”是它返回 HTML,而我需要纯文本。
这篇关于链接提取的 Stackoverflow 文章中的建议是使用 BeatifulSoup。如果没有其他选择,我会的。BeatifulSoup 将是另一个依赖项,因为我使用基于 lxml 的版本。
我的问题:
- 有没有办法从我使用的 Python 可读性版本中获取纯文本,而无需分叉代码?
- 有没有一种方法可以轻松地从 Python 可读性的 HTML 结果中检索纯文本,例如使用 lxml、BeatifulSoap、RegEx 或其他东西
- 如果上面的答案是否定的,或者是但不容易,那么修改 Python 可读性的方法是什么。这种修改是否足以(对足够多的人)使这种扩展正式化?