我试图在互联网上搜索这个主题,但找不到任何合适的解决方案。我想通过我的 Servlet 打开一个页面并捕获从服务器接收到的响应,以便我可以更改/检索从响应中获得的数据。我不是在谈论过滤从我自己的 servlet 发送的数据,而是从其他网站获取响应。
任何建议的阅读将不胜感激。
基本上,我试图通过 FileIO 提取页面上存在的所有 href。但这可能是一个乏味的过程,因为我必须事先下载这些页面。另外,有没有其他方法可以做到这一点?请指教。
你也可以尝试Selenium并使用它的 webdriver api..
列出所有链接 = driver.findElements(By.tagName("a"));
要不就
Pattern linkElementPattern = Pattern.compile(“]*href=\”[^>]*>(.*?)“);
List<String> links = new ArrayList<String>();
// html is your HTML source String..
while (linkElementPattern.matcher(html)) {
links.add(linkElementMatcher.group());
}
您可以使用httpclient或其他 http 客户端模块