0

我有一个存储大量数据的功能,然后在存储更多数据之前检查该数据是否重复。为每个重复检查查询数据库会导致脚本超过最大执行时间,因此查询整个数据库,然后只检查该查询。问题是,当我运行重复检查时,查询大小在第 4 次通过时减小到零,使其无效。这是存储功能和重复检查的代码:

function ssToScriptDb_1() {
  var spreadsheet = SpreadsheetApp.openById('0Ah1c1zmu5vU_dEZJYVMzVnF6Y211cmJGdjZBUGFLQWc');  // **** create a function to prompt for the ID
  var sheet = spreadsheet.getActiveSheet();
  var columns = spreadsheet.getLastColumn();
  var data = sheet.getDataRange().getValues();
  var keys = data[0];
  var db = ScriptDb.getMyDb();
  var allDb = db.query({});
  var items = [];
  for (var row = 1; row < data.length; row++) {
    var rowData = data[row];
    var item = {};
    for (var column = 0; column < keys.length; column++) {
      item[keys[column]] = rowData[column];  // ???? could I use this notation in place of the double for loops in timeClock?
    }
    item.visitDate = Utilities.formatDate(item.visitDate, "MST", "M/d/yyyy");

    // check to see if the item is already in the db
    if (dupCheck(db, allDb, item)) {
      items.push(item);
    }
    if (row % 1000 == 0) {
      Logger.log("row " + row + " completed at " + new Date() +"\n");
    }
  }

  var itemsLen = items.length;
  Logger.log('DB save start time ' + new Date() + '\n');
  var results = db.saveBatch(items, false);
  Logger.log('DB save end time ' + new Date() + '\n');
}

function dupCheck(db, query, item) {
  var count = 0;
  var querySize = query.getSize();
  var query2Size = db.query({}).getSize();
  while (query.hasNext()) {
    var ob = query.next();
    if (ob.ID == item.ID && ob.email == item.email && ob.visitDate == item.visitDate) {
      return false;
    }
    count++;
  }
  return true;
}

调试中的第一次通过dupCheck()如下所示: dupCheck() 通过 1

请注意,这querySize是在进入之前完成的查询,dupCheck()并且 query2Size 是在里面完成的相同查询dupCheck()

这是第二次通过dupCheck()dupCheck() 通过 2

这是第四遍: dupCheck() 通过 4

再次注意querySizevs query2Size

我不知道是什么导致原始查询减少,但我不能为每个项目调用查询,知道是什么原因造成的或有更好的解决方案吗?

4

1 回答 1

0

我想到了。我没有意识到query.next()正在改变查询。为了实现我所需要的,我将查询结果放在一个数组中,并针对该数组检查重复项。

于 2013-03-13T05:38:37.543 回答