1

这是我第一次在这个论坛上提问,所以希望大家不要太严格。这个学期我一直在做项目,我决定制作一个 android 应用程序,它能够解析来自网站(不是一个,而是很多)的文章并将其保存在文本文件或 SQLite 数据库中。我已经这样做了 5 个月了,我真的不知道如何从网页中获取特定的纯文本,而不会与特定的文章内容无关,例如添加等。通过这个论坛,我发现了如何解析数据从一个使用 Jsoup 的网站(我在我的项目中使用一个)。而且我认为它可能也适用于多个网站,但由于许多网站使用不同的 html 标签来表示某些文章的内容,我不能. 我不确定,但我想我在这个论坛上看到有人说这种事情是不可能的,但是我们如何解释这种应用程序的存在,比如Pocket(Former Read it later)、Instapaper等。这些应用程序是做我最终希望我的应用程序做的事情。那么任何人都可以就我能做些什么提出任何建议吗?谢谢。

4

1 回答 1

0

我不确定它是否会展示整个故事,但这里是代码:

doc = Jsoup.connect("http://"+URLField.getText().toString()+"").get();

                // get page title
                title = doc.title();
                doc = new Cleaner(Whitelist.none()).clean(doc);

在这里,我只是使用 Jsoup 库及其 Cleaner 类,但我得到了很多我不想出现的文本。我想张贴图片以说明清楚(我想要什么),但是这个论坛不允许我这样做。

于 2013-05-23T05:52:43.373 回答