0

问题真的那么具体。

我需要一个 Java 库,它可以获取 HTML 内容并以与 Linux lynx 程序生成的相同格式生成文本。


我需要将 3rd 方服务器提供的数据公开给 Android 上的最终用户。数据格式很古老,HTML 格式很糟糕,以至于我尝试使用 java 阅读它,但偶尔会失败(不可接受)。它也每个月都在增长(排除预安装),我无法说服他们改用“现代”的东西(XML 等的生活会很棒)。

最短路径:我写了一个类在线使用W3 html2txt服务(google搜索一下)。它在应用程序上运行良好,直到我收到投诉并注意到 W3 服务偶尔会失败。这没什么大不了的,但黑盒逻辑期望输出采用这种“lynx like”文本格式。

所以我想要一个库在应用程序内以“lynx 样式”进行转换(HTML->TXT),并避免 W3 服务中断。此外,lynx 的输出可能是我见过的最好的、最有组织和最整洁的。

大家知道吗?

4

2 回答 2

0

不知道你所说的 lynx 风格是什么意思,所以我可能会通过提交这个完全关闭(如果是这样,请原谅)。

前段时间我使用了一些代码来检查 HTML/XML 文件(当时我只是将它打印在日志中

InputStream in = context.getResources().openRawResource(id); StringBuffer inLine = new StringBuffer(); InputStreamReader isr = new InputStreamReader(in); BufferedReader inRd = new BufferedReader(isr);

字符串文本;while ((text = inRd.readLine()) != null) { inLine.append(text); inLine.append("\n"); } in.close(); 返回 inLine.toString();

我希望它有所帮助,但我觉得你需要更复杂的东西:P

于 2010-11-12T02:31:06.117 回答
0

一年后,我放弃了。答案是:没有办法处理这个问题,Java 中没有库。至少现在。

我要关闭这个。感谢您的关注。

于 2011-10-28T20:28:03.223 回答