问题真的那么具体。
我需要一个 Java 库,它可以获取 HTML 内容并以与 Linux lynx 程序生成的相同格式生成文本。
我需要将 3rd 方服务器提供的数据公开给 Android 上的最终用户。数据格式很古老,HTML 格式很糟糕,以至于我尝试使用 java 阅读它,但偶尔会失败(不可接受)。它也每个月都在增长(排除预安装),我无法说服他们改用“现代”的东西(XML 等的生活会很棒)。
最短路径:我写了一个类在线使用W3 html2txt服务(google搜索一下)。它在应用程序上运行良好,直到我收到投诉并注意到 W3 服务偶尔会失败。这没什么大不了的,但黑盒逻辑期望输出采用这种“lynx like”文本格式。
所以我想要一个库在应用程序内以“lynx 样式”进行转换(HTML->TXT),并避免 W3 服务中断。此外,lynx 的输出可能是我见过的最好的、最有组织和最整洁的。
大家知道吗?