java - 用于读取网站内容的 Java 代码

Question

Java中有什么方法可以读取网页的内容吗？

网页不是一个简单的 HTML 页面，它包含一个 ajax 调用、图像、PDF 和 Flash。我需要阅读/下载页面的所有内容（在执行 ajax 调用之后）。

请为此建议我任何解决方案。

score 0 · Accepted Answer

为此目的，存在各种 html 解析器。您可以使用其中一个

这些解决方案提取包含图像的 html 标签。对于 css 提取，您可以使用 css 解析器。

score 0 · Accepted Answer

您正在寻找爬虫和处理工具。

列出了许多开源爬虫。您可以将它与搜索服务器Solr一起使用

2 回答 2