1

我只是想知道是否可以使用扫描仪从网站读取数据。它不一定是文本网页,但有图片,可点击的链接等。所以我怎样才能只扫描文本而不扫描其他任何内容。这是一个应用程序,我会阅读可能会更改的名称。这就是为什么我想从网站上阅读它们,而不是制作自己的文本文件并以这种方式阅读。任何帮助都会很棒。谢谢

4

2 回答 2

1

您应该为此使用jsoup。使用这个工具很容易解析 HTML 页面。

您可以获得 HTML 文档并可以遍历此处提到的元素:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

入门指南简单易学:

JSoup 入门

于 2013-06-01T04:56:13.637 回答
1

您可以使用一种名为 Scraping 的技术:

网页抓取

于 2013-06-01T05:13:45.380 回答