8

我一直在尝试在 python 中复制 Evernote Web Clipper 的解析功能,用于我自己的网络抓取项目。我只对提取文本的主体感兴趣,没有别的。

我已经使用了 python Arc90 端口:

https://github.com/buriy/python-readability

结合 aaronsw 的精彩 html2text 库:

https://github.com/aaronsw/html2text

这在大多数情况下都会产生良好的效果,但 Evernote 在抓取文本主体方面要好得多。

有人可以推荐一种更好的方法,或者告诉我 Evernote 在做什么。

谢谢!

4

0 回答 0