0

有人可以给我一个关于屏幕抓取的好教程。我有一个网页,我的大学用来上传每个班级的所有数据。要进入他们网站的主页,有一个带有登录按钮的入口屏幕。按下它会弹出一个浮动对话框,询问用户名和密码。然后直接进入首页。我不知道它在哪里请求授权,我希望能够以编程方式从站点获取数据。我需要的数据是通过更多带有登录名的屏幕,但如果我能用我的 id 和密码通过第一个屏幕,我会很高兴的。最好我希望在 java 中这样,但任何语言都可以

4

1 回答 1

1

这听起来好像登录对话框不是原始页面的一部分,而是由一些 JavaScript 动态构建的,可能通过 Ajax 调用。

您将需要某种支持 javaScript 和 Ajax 的无头浏览器。

看看HtmlUnit (http://htmlunit.sourceforge.net/),来自介绍:

HtmlUnit 是“Java 程序的无 GUI 浏览器”。它对 HTML 文档进行建模并提供一个 API,允许您调用页面、填写表单、单击链接等……就像您在“普通”浏览器中所做的一样。

它具有相当好的 JavaScript 支持(不断改进),甚至能够使用非常复杂的 AJAX 库,根据您要使用的配置模拟 Firefox 或 Internet Explorer。

编辑:这是一个例子:

我注意到您要扫描的页面(http://qub.ac.uk/qol/)使用基本身份验证,因此弹出的不是某种 HTML 输入表单,而是浏览器对话框。当您按下开始页面上的“登录”按钮时,https://qub.ac.uk/qol/将加载一个页面,该页面以这种方式受到保护。

作为测试,我只向您展示如何http://qub.ac.uk/qol/使用 HtmlUnit 从不安全页面中获取标题,因为我当然无法访问机密部分。

我认为,应该清楚它一般是如何工作的。有关如何使用 HtmlUnit API 的更多详细信息,请参阅 Web 上的优秀文档和其他资源。

package test;

import java.io.IOException;
import java.net.MalformedURLException;

import javax.xml.bind.DatatypeConverter;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomElement;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class Scraper {

    public static void main(String[] args)
            throws FailingHttpStatusCodeException, MalformedURLException,
            IOException {
        WebClient webClient = new WebClient();

        String username = "user";
        String password = "pw";
        String authString = username + ":" + password;
        String authEncoded = DatatypeConverter.printBase64Binary(authString
                .getBytes());

        webClient.addRequestHeader("Authorization", "Basic " + authEncoded);

        HtmlPage page = webClient.getPage("http://qub.ac.uk/qol/");
        // System.out.println(page.asXml());
        DomNodeList<DomElement> headings = page.getElementsByTagName("h3");
        for (DomElement e : headings) {
            System.out.println("Got heading: " + e.getTextContent());
        }

    }

}
于 2012-11-13T13:48:03.153 回答