我一直在尝试在 python 中复制 Evernote Web Clipper 的解析功能,用于我自己的网络抓取项目。我只对提取文本的主体感兴趣,没有别的。
我已经使用了 python Arc90 端口:
https://github.com/buriy/python-readability
结合 aaronsw 的精彩 html2text 库:
https://github.com/aaronsw/html2text
这在大多数情况下都会产生良好的效果,但 Evernote 在抓取文本主体方面要好得多。
有人可以推荐一种更好的方法,或者告诉我 Evernote 在做什么。
谢谢!