9

我正在尝试使用 selenium 从指定的 URL 将源代码捕获到 HTML 文件中,但我不知道为什么,我没有得到我们从浏览器中看到的确切源代码。

下面是我在 HTML 文件中捕获源代码的 java 代码

private static void getHTMLSourceFromURL(String url, String fileName) {

    WebDriver driver = new FirefoxDriver();
    driver.get(url);

    try {
        Thread.sleep(5000);   //the page gets loaded completely

        List<String> pageSource = new ArrayList<String>(Arrays.asList(driver.getPageSource().split("\n")));

        writeTextToFile(pageSource, originalFile);

    } catch (InterruptedException e) {
        e.printStackTrace();
    }

    System.out.println("quitting webdriver");
    driver.quit();
}

/**
 * creates file with fileName and writes the content
 * 
 * @param content
 * @param fileName
 */
private static void writeTextToFile(List<String> content, String fileName) {
    PrintWriter pw = null;
    String outputFolder = ".";
    File output = null;
    try {
        File dir = new File(outputFolder + '/' + "HTML Sources");
        if (!dir.exists()) {
            boolean success = dir.mkdirs();
            if (success == false) {
                try {
                    throw new Exception(dir + " could not be created");
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        }

        output = new File(dir + "/" + fileName);
        if (!output.exists()) {
            try {
                output.createNewFile();
            } catch (IOException ioe) {
                ioe.printStackTrace();
            }
        }
        pw = new PrintWriter(new FileWriter(output, true));
        for (String line : content) {
            pw.print(line);
            pw.print("\n");
        }
    } catch (IOException ioe) {
        ioe.printStackTrace();
    } finally {
        pw.close();
    }

}

有人可以解释一下为什么会发生这种情况吗?WebDriver 如何呈现页面?以及浏览器如何显示来源?

4

3 回答 3

4

有几个地方可以获取源码。你可以试试

String pageSource=driver.findElement(By.tagName("body")).getText();

看看会发生什么。

通常,您不需要等待页面加载。Selenium 会自动执行此操作,除非您有单独的 Javascript/Ajax 部分。

您可能想要添加您所看到的差异,以便我们能够理解您的真正意思。

Webdriver 不会自己渲染页面,它只是在浏览器看到它时渲染它。

于 2013-10-14T12:57:22.807 回答
4

我遇到了同样的问题。我使用这些代码来解决它:

......
String javascript = "return arguments[0].innerHTML";
String pageSource=(String)(JavascriptExecutor)driver)
    .executeScript(javascript, driver.findElement(By.tagName("html")));
pageSource = "<html>"+pageSource +"</html>";
System.out.println(pageSource);
//FileUtils.write(new File("e:\\test.html"), pageSource,);
......

通过使用 JavaScript 代码获取 innerHTML 属性,它终于可以工作了,问号消失了。

于 2015-06-25T14:17:17.937 回答
4

您从 Selenium 获得的“源”代码似乎根本不是源代码。它似乎是当前 DOM 的 HTML。您在浏览器中看到的源代码是服务器给出的 HTML,在 JavaScript 对其进行任何动态更改之前。如果 DOM 发生变化,浏览器源代码不会反映这些变化,但 Selenium 会。如果你想在浏览器中查看当前的 DOM,你会使用开发者工具,而不是源代码。

于 2016-05-06T21:25:43.387 回答