1

有一个网站包含一个包含 25 个条目列表的页面,其中每个条目都是指向包含我需要的一些信息的页面的链接。我想进入列表页面,然后:1)单击第一个条目的链接 2)检索所有 html 3)单击返回列表页面(有一个按钮) 4)重复每个其他列表

我也想尽可能高效地做到这一点,我被告知这意味着利用承诺。这是我的代码草图,它不起作用:

var Nightmare = require('nightmare');
var nightmare = Nightmare({ openDevTools: true, show: true })
var Xray = require('x-ray');
var x = Xray();
var resultArr = [];

nightmare
.goto(hidTestURL)
.wait(2500)
.click('input[name="propertySearchOptions:advanced"]') //start navigating to listing page
.wait(2500)
.type('input[name="propertySearchOptions:streetName"]', 'Main')
.wait(2500)
.select('select[name="propertySearchOptions:recordsPerPage"]', '25')
.wait(2500)
.click('input[name="propertySearchOptions:search"]') //at listing page
.wait(2500)
.then(function(){
  nightmare
  .click('a[href^="Property.aspx?prop_id=228645"]') //first entry
  .evaluate(function(){ //retrieve info
    var resultArr = [];
    resultArr.push(document.querySelector('html').innerHTML);
  })
})

nightmare
.click('a[id="propertyHeading_searchResults"]') //return to listing page
.evaluate(function(){
  return resultArr.push(document.querySelector('html').innerHTML); retrieve listing page info to show that it returned.
})
.then(function (resultArr) {
  console.log('resultArr', resultArr);
  x(resultArr[1], 'body@html') //output listing page html
    .write('results.json');
})

这一直到列表页面,然后不再继续。我也尝试了相同的代码,但return nightmare每次使用nightmare除了第一个。我看过一些使用 的例子return,但是当我这样做时,代码抛出了一个错误。

我还尝试不包括第三个nightmare(空格后面的那个),而是尝试通过直接转到 来继续旧的噩梦实例.click(),但这也引发了错误。

我显然需要一些关于噩梦的语法和语义方面的帮助,但是除了 API 列表之外,在线文档并不多。有谁知道我怎样才能使这项工作?

4

1 回答 1

6

首先,像你一样调用 Nightmare - 分成两条链 -可能不会做你想做的事。(这个评论线程是一个很好的 - 尽管很长 - 入门。)内存服务,来自第二个链的动作将在第一个链之后立即排队,导致(可能)不良行为。你说你的写法略有不同——我很想看看,听起来可能更接近一点。

其次,你试图提升resultArr.evaluate()这是不可能的。传递给的函数.evaluate()在 Electron 内部被字符串化和重构——这意味着你将失去函数周围的环境上下文。 如果你好奇的话,这个例子会更深入一点。nightmare-examples

第三,这可能是一个错字或我误解的意图:您的href选择器使用starts-with ( ^=) 运算符,这是故意的吗?那应该是($=)的结尾吗?

第四,循环异步操作很棘手。我得到的印象可能也是一个绊脚石?

考虑到所有这些,让我们来看看修改您的原始脚本。诚然未经测试,因为我无权访问您的测试 URL,所以这有点时髦:

var Nightmare = require('nightmare');
var nightmare = Nightmare({ openDevTools: true, show: true })
var Xray = require('x-ray');
var x = Xray();

nightmare
.goto(hidTestURL)
.wait(2500)
.click('input[name="propertySearchOptions:advanced"]') //start navigating to listing page
.wait(2500)
.type('input[name="propertySearchOptions:streetName"]', 'Main')
.wait(2500)
.select('select[name="propertySearchOptions:recordsPerPage"]', '25')
.wait(2500)
.click('input[name="propertySearchOptions:search"]') //at listing page
.wait(2500)
.evaluate(function(){
  //using `Array.from` as the DOMList is not an array, but an array-like, sort of like `arguments`
  //planning on using `Array.map()` in a moment
  return Array.from(
    //give me all of the elements where the href contains 'Property.aspx'
    document.querySelectorAll('a[href*="Property.aspx"]'))
    //pull the target hrefs for those anchors
    .map(a => a.href);
})
.then(function(hrefs){
  //here, there are two options:
  //  1. you could navigate to each link, get the information you need, then navigate back, or
  //  2. you could navigate straight to each link and get the information you need.
  //I'm going to go with #1 as that's how it was in your original script.

  //here, we're going to use the vanilla JS way of executing a series of promises in a sequence.
  //for every href in hrefs,
  return hrefs.reduce(function(accumulator, href){
    //return the accumulated promise results, followed by...
    return accumulator.then(function(results){
      return nightmare
        //click on the href
        .click('a[href="'+href+'"]')
        //get the html
        .evaluate(function(){
          return document.querySelector('html').innerHTML;
        })
        //add the result to the results
        .then(function(html){
          results.push(html);
          return results;
        })
        .then(function(results){
          //click on the search result link to go back to the search result page
          return nightmare
            .click('a[id="propertyHeading_searchResults"]')
            .then(function() {
              //make sure the results are returned
              return results;
            });
        })
    });
  }, Promise.resolve([])) //kick off the reduce with a promise that resolves an empty array
})
.then(function (resultArr) {
  //if I haven't made a mistake above with the `Array.reduce`, `resultArr` should now contain all of your links' results
  console.log('resultArr', resultArr);
  x(resultArr[1], 'body@html') //output listing page html
    .write('results.json');
});

希望这足以让你开始。

于 2016-08-06T20:51:47.087 回答