1

Java中有什么方法可以读取网页的内容吗?

网页不是一个简单的 HTML 页面,它包含一个 ajax 调用、图像、PDF 和 Flash。我需要阅读/下载页面的所有内容(在执行 ajax 调用之后)。

请为此建议我任何解决方案。

4

2 回答 2

0

为此目的,存在各种 html 解析器。您可以使用其中一个

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取包含图像的 html 标签。对于 css 提取,您可以使用 css 解析器。

于 2012-12-07T06:13:28.587 回答
0

您正在寻找爬虫和处理工具。

列出了许多 开源爬虫。您可以将它与搜索服务器Solr一起使用

于 2012-12-07T06:19:52.370 回答