android - 从网页解析纯文本

Question

这是我第一次在这个论坛上提问，所以希望大家不要太严格。这个学期我一直在做项目，我决定制作一个 android 应用程序，它能够解析来自网站（不是一个，而是很多）的文章并将其保存在文本文件或 SQLite 数据库中。我已经这样做了 5 个月了，我真的不知道如何从网页中获取特定的纯文本，而不会与特定的文章内容无关，例如添加等。通过这个论坛，我发现了如何解析数据从一个使用 Jsoup 的网站（我在我的项目中使用一个）。而且我认为它可能也适用于多个网站，但由于许多网站使用不同的 html 标签来表示某些文章的内容，我不能. 我不确定，但我想我在这个论坛上看到有人说这种事情是不可能的，但是我们如何解释这种应用程序的存在，比如Pocket(Former Read it later)、Instapaper等。这些应用程序是做我最终希望我的应用程序做的事情。那么任何人都可以就我能做些什么提出任何建议吗？谢谢。

score 0 · Accepted Answer

我不确定它是否会展示整个故事，但这里是代码：

doc = Jsoup.connect("http://"+URLField.getText().toString()+"").get();

                // get page title
                title = doc.title();
                doc = new Cleaner(Whitelist.none()).clean(doc);

在这里，我只是使用 Jsoup 库及其 Cleaner 类，但我得到了很多我不想出现的文本。我想张贴图片以说明清楚（我想要什么），但是这个论坛不允许我这样做。

android - 从网页解析纯文本

1 回答 1

Related

Reference