我做的研究越多,前景就越严峻。
我正在尝试使用 Python 进行平面保存或静态保存网页。这意味着将所有样式合并为内联属性,并将所有链接更改为绝对 URL。
我已经尝试了几乎所有免费的转换网站、api,甚至 github 上的库。没有一个是那么令人印象深刻。我能找到的扁平化样式的最佳 python 实现是https://github.com/davecranwell/inline-styler。我为 Flask 稍作调整,但生成的文件不是那么好。这是它的外观:
显然,它应该看起来更好。它应该是这样的:
处理格式错误的 html、无法识别的 CSS 属性、Unicode 错误等似乎是一场永无止境的斗争。那么有没有人建议更好的方法来做到这一点?我知道我可以在本地浏览器中转到文件-> 保存,但是当我尝试批量执行此操作时,并提取一个不太可行的特定 xpath。
看起来 Evernote 的网络剪辑器使用 iFrame,但这似乎比我想象的要复杂。但至少剪报在 Evernote 上看起来不错。