2

我正在编写一个 Greasemonkey (v2.3) 脚本,该脚本基本上对lema.rae.es/drae/srv/search提供的内容进行屏幕抓取,因为缺少任何类型的 API。

问题是,我想从另一个域的谷歌翻译中查询该 URL。为此,我可以毫无问题地使用 GM_xmlhttpRequest,但是对特定 URL 的 GET 请求(例如lema.rae.es/drae/srv/search?val=test)会生成一个带有隐藏表单的 HTML 页面,该表单在调用后会被 POST challenge()javascript 函数——它计算某种在 POST 请求中传递的令牌。

显然,这是异步发生的,Greasemonkey 对此一无所知。通过反复试验,我意识到如果我的浏览器(Iceweasel 31.2.0)有一个用于 lema.drae.es 的 cookie,那么使用发出的 GET 请求GM_xmlhttpRequest实际上返回了我想要的,这是定义的 HTML作为 URL 中的参数“val”传递的单词。但是,如果我删除 lema.drae.es 的所有 cookie,则 GET 请求会返回上述隐藏表单。

简而言之,我需要一种方法来从 Greasemonkey 中接收该 POST 请求的响应,并且我相信如果可以从服务器接收 cookie 并将其存储,那么我可以将其作为请求标头包含在进一步的请求中它应该可以按我的预期工作。或者它应该简单地存储在浏览器中,因此在我触发时会作为标题发送GM_xmlhttpRequest

我尝试了一种不同的解决方案来解决我的问题,即使用隐藏的 iframe,但是基于同源策略,浏览器阻止了此类 iframe 的创建,即使在将用户脚本配置为在两个域上运行之后也是如此。

希望我已经明确了我想要实现的目标,我希望有人能指出我正确的方向。

附带说明:如果有人可以解释该challenge()函数的计算结果,我将不胜感激。我的假设是它生成的令牌被发送到服务器,服务器又使用它来生成 cookie,但这听起来太复杂了......

4

1 回答 1

0

隐藏的 iframe 路由是可行的方法,但在这种情况下它被translate.google.com阻止。

这是确保 Firefox 拥有让您的混搭站点 ( lema.rae.es ) 满意所需的新鲜 cookie 的另一种方法:

  1. 查找一些源 HTML,当混搭站点需要新鲜的 cookie 时,这些源 HTML 存在,但在其他情况下不存在。
    在这种情况下,JS 源代码function challenge就可以了。

  2. 访问GM_xmlhttpRequest混搭站点并测试响应。

  3. 如果 GM_xmlhttpRequest响应具有所需的数据,请根据需要对其进行解析。
    完毕!

  4. 如果 GM_xmlhttpRequest响应具有“需要 cookie”源,则在弹出窗口中打开混搭站点的特殊查询:

    1. 由于该站点是在自己的窗口中打开的,因此不会被跨域保护措施阻止。
    2. 将 GM 脚本设置为也对这个特殊的 URL 进行操作。
    3. 对于特殊 URL,等到关键节点或文本出现,表明页面已完成加载并设置了 cookie。
    4. 弹出窗口完成后,它会向打开页面发送一条消息,然后自行关闭。
    5. 当打开的页面得到消息时,它重新GM_xmlhttp请求mashup页面。
    6. 解析它并完成!


这是一个完整且经过测试(在 Firefox 上)的 Greasemonkey 脚本,它将 lema.rae.es/drae/srv/search 混合translate.google.com中。:

// ==UserScript==
// @name     _GM_xmlhttpRequest that needs cookie(s)
// @include  https://translate.google.com/*
// @include  http://lema.rae.es/drae/srv/search?val=openedByGM
// @require  http://ajax.googleapis.com/ajax/libs/jquery/2.1.0/jquery.min.js
// @require  https://gist.github.com/raw/2625891/waitForKeyElements.js
// @grant    GM_xmlhttpRequest
// ==/UserScript==

//--- Global variables
var mashupURL   = "http://lema.rae.es/drae/srv/search?val=test";
var cookGenURL  = "http://lema.rae.es/drae/srv/search?val=openedByGM";

if (location.href == cookGenURL) {
    //--- May be best we can do until Greasemonkey fixes tab handling flaws.
    document.title = "Close me!";

    if (window.opener) {
        waitForKeyElements ("i:contains(openedByGM)", closePopupIfCan);
    }
}
else {
    attemptMashup ();

    window.addEventListener ("message", receiveCookieMessage, false);
}

//-- Just functions from here on down...

function closePopupIfCan (jNode) {
    window.opener.postMessage ("Cookie(s) should be set!", "*");
    window.close ();
}

function attemptMashup () {
    GM_xmlhttpRequest ( {
        method:     "GET",
        url:        mashupURL,
        onload:     parseDictionaryResponse,
        onabort:    reportAJAX_Error,
        onerror:    reportAJAX_Error,
        ontimeout:  reportAJAX_Error
    } );
}

function receiveCookieMessage (event) {
    if (event.origin != "http://lema.rae.es")     return;

    console.log ("message ==> ", event.data);

    /*--- Now that have cookie(s), re-attempt mashup, but need a little
        settling time.
    */
    setTimeout (attemptMashup, 888);
}

function parseDictionaryResponse (respObject) {
    if (respObject.status != 200  &&  respObject.status != 304) {
        reportAJAX_Error (respObject);
        return;
    }
    /*--- If the required cookie is not present/valid, open the target page
        in a temporary tab to set the cookies, then reload this page.

        The test string is unique to the scraped site and is only present
        when cookie(s) is/are needed.
    */
    if (/function\s+challenge/i.test (respObject.responseText) ) {
        var newTab  = window.open (cookGenURL);
        return;
    }

    //--- Don't use jQuery to parse this!
    var parser      = new DOMParser ();
    var responseDoc = parser.parseFromString (
        respObject.responseText, "text/html" // Firefox only, for now.
    );

    //--- Get site-specific payload and put in site-specific location.
    var payload     = responseDoc.querySelectorAll ("body > div");
    $("#gt-form-c").before (payload);
}

function reportAJAX_Error (respObject) {
    alert (
        'Error ' + respObject.status + '!  "' + respObject.statusText + '"'
    );
}
于 2014-11-16T04:36:21.800 回答