java - 使用 selenium 保存页面内容

Question

我正在使用 selenium 在门户网站上收集数据。这里的问题是数据是 XML 格式，但 URL 扩展名不是 .xml，它显示为 .aspx，因为它是一个点网网站。现在使用 selenium 我可以通过使用获取页面源driver.getPageSource()

但它给了我 HTML 格式。在这里使用 HTML 分离 XML 真的很痛苦，我尝试了很多选项，例如 JSoup，但似乎有太多的解析要做。

有没有其他方法可以让 selenium 操作浏览器。我可以看到 File-Save as 让我可以选择以 xml 格式保存网页。如何在 selenium 中执行此操作？是否有任何其他 API 可以帮助我这里。

编辑：我的浏览器是 Internet Explorer

score 1 · Accepted Answer

你试过这样吗？

String pageSource=driver.findElement(By.tagName("body")).getText();

查看此页面源内容如果它仅提供 XML 内容，您可以使用文件操作将其写入文件。

1 回答 1