java - 从网站扫描数据

Question

我只是想知道是否可以使用扫描仪从网站读取数据。它不一定是文本网页，但有图片，可点击的链接等。所以我怎样才能只扫描文本而不扫描其他任何内容。这是一个应用程序，我会阅读可能会更改的名称。这就是为什么我想从网站上阅读它们，而不是制作自己的文本文件并以这种方式阅读。任何帮助都会很棒。谢谢

score 1 · Accepted Answer

您应该为此使用jsoup。使用这个工具很容易解析 HTML 页面。

您可以获得 HTML 文档并可以遍历此处提到的元素：

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

入门指南简单易学：

score 1 · Accepted Answer

1

您可以使用一种名为 Scraping 的技术：

于 2013-06-01T05:13:45.380 回答

2 回答 2