仅删除所有 HTML 标签的解决方案不适用于我的应用程序。
到目前为止,我已经找到了两种在 Python 中清理 HTML 的解决方案:
- 漂白剂(使用 html5lib)。它在开发服务器上运行良好,但我无法让它在生产中运行。当我尝试导入 html5lib 时,出现“ImportError:没有名为 html5lib 的模块”。就好像文件夹不存在一样。可能是GAE的python路径有问题。
- lxml。让它在开发服务器上工作更复杂:必须将两个第三方二进制文件(libxslt 和 libxml2)安装到我的本地 Python,然后 pip install lxml。然后在生产中,一旦我在 app.yaml 中声明了 lxml 库,它就可以正常工作了。
有比 lxml 更好的解决方案吗?
提前致谢