java - 在java中获取网页的实际文本响应

Question

我正在使用 java 并尝试获取网站的内容，以便我可以分析页面上的文本，但是每次我“获取”来自服务器的响应时，它来自登录页面而不是网站页面我正在看。

我在所有浏览器上都登录了该网站，但我的应用程序无法像看到我一样看到该页面。

我还尝试使用名为“Yandex”的 API --> http://api.yandex.com/rca/ 作为解决方法。但是当我从 Yandex 调用该页面（这将获取其内容）时，我只能看到基于返回的登录页面的信息。

谁能给我一个调查的方向？我希望能够在我工作的网站页面上获得一个项目，但这似乎不可能。

m_strseedpath = "http://myUrl.com/mypage.html"; //not https    
URLConnection connection = new URL("http://rca.yandex.com/?key={MyActualKeyNotThisText}&url=" + m_strSeedUrlPath + "").openConnection();
connection.setRequestProperty("Accept-Charset", "UTF-8");
InputStream response = connection.getInputStream();
StringWriter writer = new StringWriter();
IOUtils.copy(response, writer, "UTF-8");
String strString = writer.toString();

System.out.println(strString);

score 0 · Accepted Answer

您尝试访问的 URL 已通过登录限制访问。即使您通过浏览器登录，您也无法从 Java 应用程序访问该页面，因为浏览器与目标网站有一个经过身份验证的会话。您的 Java 应用程序看不到相同的会话。

您必须研究登录网站的方法，然后获取页面内容。

score 0 · Accepted Answer

URLConnection 对象将连接到页面，但在不同的会话中。您必须以编程方式从您的 Java 代码登录。

创建一个到登录页面的 URLConnection 对象，POST 用户名和密码，接收从 URLConnection 对象获取 InputStream 的内容，最后创建一个到您要分析的页面的新连接。您还必须使用 cookie 才能查看第二页。

希望这可以帮助！

java - 在java中获取网页的实际文本响应

2 回答 2

Related

Reference