我想知道有哪些独立选项可用于解析普通网页并将其转换为易于阅读的格式,这些选项由 Pocket、Readability 和 Instapaper 等服务提供。
我主要是在寻找要包含在我的应用程序中的 Java 解析器库,但总的来说,各种独立工具都会受到赞赏。
谢谢。
我想知道有哪些独立选项可用于解析普通网页并将其转换为易于阅读的格式,这些选项由 Pocket、Readability 和 Instapaper 等服务提供。
我主要是在寻找要包含在我的应用程序中的 Java 解析器库,但总的来说,各种独立工具都会受到赞赏。
谢谢。
我认为您正在追求Snacktory,它似乎是当今 Java 最先进的技术,取代了 jreadability。
Snackatory 现在本身声明它已经过时并建议使用Crux。
但也有Readability4J。它是 Mozilla 的 Readability.js 的 Kotlin 端口,用于 Firefox 的阅读器视图。所以 Readability4J 的输出与 Firefox 的阅读器视图完全匹配。
免责声明:我是 Readability4J 的作者。但我只是把它移植了,感谢 Mozilla 的出色工作:https ://github.com/mozilla/readability 。
JSoup是第一个想到的库。它非常适合抓取 HTML。您可以轻松地从网页中删除所有标签,只留下文本。(如果您知道目标页面的结构,您可以只使用特定的选择器来获取您想要的部分,或者排除您想要的部分。)
再说一次,你可能只是想要像Flying Saucer这样的东西,它会尽力将网页呈现为 PDF。