0

我正在使用 selenium 在门户网站上收集数据。这里的问题是数据是 XML 格式,但 URL 扩展名不是 .xml,它显示为 .aspx,因为它是一个点网网站。现在使用 selenium 我可以通过使用获取页面源driver.getPageSource()

但它给了我 HTML 格式。在这里使用 HTML 分离 XML 真的很痛苦,我尝试了很多选项,例如 JSoup,但似乎有太多的解析要做。

有没有其他方法可以让 selenium 操作浏览器。我可以看到 File-Save as 让我可以选择以 xml 格式保存网页。如何在 selenium 中执行此操作?是否有任何其他 API 可以帮助我这里。

编辑:我的浏览器是 Internet Explorer

4

1 回答 1

1

你试过这样吗?

String pageSource=driver.findElement(By.tagName("body")).getText();

查看此页面源内容如果它仅提供 XML 内容,您可以使用文件操作将其写入文件。

于 2013-03-22T12:54:14.717 回答