Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我只是想知道是否可以使用扫描仪从网站读取数据。它不一定是文本网页,但有图片,可点击的链接等。所以我怎样才能只扫描文本而不扫描其他任何内容。这是一个应用程序,我会阅读可能会更改的名称。这就是为什么我想从网站上阅读它们,而不是制作自己的文本文件并以这种方式阅读。任何帮助都会很棒。谢谢
您应该为此使用jsoup。使用这个工具很容易解析 HTML 页面。
您可以获得 HTML 文档并可以遍历此处提到的元素:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a");
入门指南简单易学:
JSoup 入门
您可以使用一种名为 Scraping 的技术:
网页抓取