0

我有一个 URL,我需要它的 HTML。我使用了以下代码。

String url = "http://www.sears.com/search="+keywords;
String jsp = retrieveContent(url);

我注意到该字符串jsp的内容与网页的实际源代码不同(当我从浏览器查看源代码时)。我相信当浏览器打开时正在调用服务器端脚本(或正在重定向),并且该脚本的输出就是我所看到的。你能告诉我一种获取页面实际html文件的方法吗?

您可以查看此链接作为示例。我如何获得这个 pageE 的实际 html?

http://www.sears.com/search=baby%20strollers

4

3 回答 3

0

如果可能,我想查看retrieveContent 方法的代码,并且如果您尝试直接读取url 的html 内容,那么这里有一个很好的示例 http://docs.oracle.com/javase/tutorial/networking/urls/readingURL .html

于 2013-09-22T17:39:22.610 回答
0

HTML 页面存储在变量 jsp 中。alert(jsp) 会显示页面。

于 2013-09-22T14:33:25.517 回答
0

有许多 html 内容抓取库可以解决问题,我使用的是JSOUP,JSOUP 说:

“从 URL、文件或字符串中抓取并解析 HTML”

JSOUP 可能适合您的目的。

于 2013-09-22T18:42:07.683 回答