我正在使用 selenium 在门户网站上收集数据。这里的问题是数据是 XML 格式,但 URL 扩展名不是 .xml,它显示为 .aspx,因为它是一个点网网站。现在使用 selenium 我可以通过使用获取页面源driver.getPageSource()
但它给了我 HTML 格式。在这里使用 HTML 分离 XML 真的很痛苦,我尝试了很多选项,例如 JSoup,但似乎有太多的解析要做。
有没有其他方法可以让 selenium 操作浏览器。我可以看到 File-Save as 让我可以选择以 xml 格式保存网页。如何在 selenium 中执行此操作?是否有任何其他 API 可以帮助我这里。
编辑:我的浏览器是 Internet Explorer