0

我使用 URLFetchApp 在 Apps Script 中构建了一个简单的自定义函数来获取 TikTok 帐户的关注者数量。

function tiktok_fans() {
  var raw_data = new RegExp(/("followerCount":)([0-9]+)/g);
  var handle = '@charlidamelio';
  var web_content = UrlFetchApp.fetch('https://www.tiktok.com/'+ handle + '?lang=en').getContentText();
  var match_text = raw_data.exec(web_content);
  var result = (match_text[2]);
  Logger.log(result)
  return result
}

日志返回关注者的正确编号。

但是,当我将代码更改为;

function tiktok_fans(handle) {
  var raw_data = new RegExp(/("followerCount":)([0-9]+)/g);
  //var handle = '@charlidamelio';
  var web_content = UrlFetchApp.fetch('https://www.tiktok.com/'+ handle + '?lang=en').getContentText();
  var match_text = raw_data.exec(web_content);
  var result = (match_text[2]);
  Logger.log(result)
  return result
}

并在电子表格中使用它,例如=tiktok_fans(A1),A1在单元格中@charlidamelio得到#ERROR响应

TypeError:无法读取 null 的属性“2”(第 6 行)。

为什么它在日志中有效,但在电子表格中无效?

- 附加信息 -

在测试下面的@Tanaike 答案后仍然出现相同的错误,“TypeError:无法读取 null 的属性 '2'(第 6 行)。”

已手动映射以查看错误,每次运行以下命令时,都会返回不同的日志“null”。我相信这与缓存中的 ContentText 大小/有关。我尝试Utilities.sleep()在函数之间使用但没有运气,我仍然得到空值。

代码

  var raw_data = new RegExp(/("followerCount":)([0-9]+)/g);

  //tiktok urls
  var qld = UrlFetchApp.fetch('https://www.tiktok.com/@thisisqueensland?lang=en').getContentText();
  var nsw = UrlFetchApp.fetch('https://www.tiktok.com/@visitnsw?lang=en').getContentText();
  var syd = UrlFetchApp.fetch('https://www.tiktok.com/@sydney?lang=en').getContentText();
  var tas = UrlFetchApp.fetch('https://www.tiktok.com/@tasmania?lang=en').getContentText();
  var nt = UrlFetchApp.fetch('https://www.tiktok.com/@ntaustralia?lang=en').getContentText();
  var nz = UrlFetchApp.fetch('https://www.tiktok.com/@purenz?lang=en').getContentText();
  var aus = UrlFetchApp.fetch('https://www.tiktok.com/@australia?lang=en').getContentText();
  var vic = UrlFetchApp.fetch('https://www.tiktok.com/@visitmelbourne?lang=en').getContentText();

  //find folowers with regex
  var match_qld = raw_data.exec(qld);
  var match_nsw = raw_data.exec(nsw);
  var match_syd = raw_data.exec(syd);
  var match_tas = raw_data.exec(tas);
  var match_nt = raw_data.exec(nt);
  var match_nz = raw_data.exec(nz);
  var match_aus = raw_data.exec(aus);
  var match_vic = raw_data.exec(vic);

  Logger.log(match_qld);
  Logger.log(match_nsw);
  Logger.log(match_syd);
  Logger.log(match_tas);
  Logger.log(match_nt);
  Logger.log(match_nz);
  Logger.log(match_aus);
  Logger.log(match_vic);
4

2 回答 2

5

问题:

根据您的情况,我记得带有自定义功能的 UrlFetchApp 的请求与带有脚本编辑器的 UrlFetchApp 的请求不同。所以我认为你的问题的原因可能与这个线程有关。https://stackoverflow.com/a/63024816在您的情况下,您的情况似乎与此线程相反。但是,这个问题被认为是由于站点的规范造成的。

为了检查这种差异,我检查了检索到的 HTML 数据的文件大小。

  • 使用脚本编辑器执行的 UrlFetchApp 检索到的 HTML 数据的文件大小为 518k 字节。
  • 使用自定义函数执行的 UrlFetchApp 检索到的 HTML 数据的文件大小为 9k 字节。
    • 使用自定义函数执行的 UrlFetchApp 的请求似乎与使用 Web Apps 执行的 UrlFetchApp 的请求相同。9k 字节的数据是通过使用它来检索的。

从上面的结果可以发现,脚本编辑器和自定义函数检索到的HTML是不一样的。即,自定义函数检索到的 HTML 数据不包含("followerCount":)([0-9]+). 这样,就会发生这样的错误。我认为这可能是您的问题的原因。

解决方法:

当我使用 Web 应用程序和触发器测试您的情况时,会出现同样的问题。至此,在现阶段,我认为自动执行脚本的方法可能无法使用。那么,作为一种解决方法,使用按钮和自定义菜单怎么样?当脚本由按钮和自定义菜单运行时,脚本工作。看来这个方法和脚本编辑器的方法是一样的。

示例脚本如下。

示例脚本:

在运行脚本之前,请先设置range. 例如,请将此功能分配给电子表格上的按钮。单击按钮时,脚本将运行。在此示例中,它假设将类似的值@charlidamelio放入“A”列。

function sample() {
  var range = "A2:A10"; // Please set the range of "handle".
  var raw_data = new RegExp(/("followerCount":)([0-9]+)/g);
  var sheet = SpreadsheetApp.getActiveSheet();
  var r = sheet.getRange(range);
  var values = r.getValues();
  var res = values.map(([handle]) => {
    if (handle != "") {
      var web_content = UrlFetchApp.fetch('https://www.tiktok.com/'+ handle + '?lang=en').getContentText();
      var match_text = raw_data.exec(web_content);
      return [match_text[2]];
    }
    return [""];
  });
  r.offset(0, 1).setValues(res);
}
  • 运行此脚本时,将从 URL 检索值并将其放入“B”列。

笔记:

  • 这是一个简单的脚本。所以请根据您的实际情况进行修改。

参考:

添加:

关于以下附加问题,

虽然这适用于 1 个 TikTok 句柄,但在尝试运行多个列表时,它每次都会失败,并出现错误 TypeError: Cannot read property '2' of null。在进行了一些调查并手动映射出 8 个句柄之后,我可以看到每次运行时,它都会为一个或多个 web_content 变量返回“null”。有没有办法一次减慢脚本/运行每个 UrlFetchApp 以确保每个都返回内容?

我已经尝试过了,但仍然出现错误。已尝试长达 10000 毫秒。我在原始问题中添加了更多细节,希望这对错误有意义。我总是在不同的日志中得到空值,因此我认为这是时间或缓存问题。

在这种情况下,下面的示例脚本怎么样?

示例脚本:

在此示例脚本中,当无法从 URL 中检索到值时,将尝试再次检索该值作为重试。此示例脚本使用 2 次作为重试。因此,当 2 次重试无法检索到该值时,将返回空值。

function sample() {
  var range = "A2:A10"; // Please set the range of "handle".
  var raw_data = new RegExp(/("followerCount":)([0-9]+)/g);
  var sheet = SpreadsheetApp.getActiveSheet();
  var r = sheet.getRange(range);
  var values = r.getValues();
  var res = values.map(([handle]) => {
    if (handle != "") {
      var web_content = UrlFetchApp.fetch('https://www.tiktok.com/'+ handle + '?lang=en').getContentText();
      var match_text = raw_data.exec(web_content);
      if (!match_text || match_text.length != 3) {
        var retry = 2; // Number of retry.
        for (var i = 0; i < retry; i++) {
          Utilities.sleep(3000);
          web_content = UrlFetchApp.fetch('https://www.tiktok.com/'+ handle + '?lang=en').getContentText();
          match_text = raw_data.exec(web_content);
          if (match_text || match_text.length == 3) break;
        }
      }
      return [match_text && match_text.length == 3 ? match_text[2] : ""];
    }
    return [""];
  });
  r.offset(0, 1).setValues(res);
}
  • 请调整 和 的retryUtilities.sleep(3000)
于 2021-11-26T04:40:37.837 回答
0

这对我来说是一个自定义函数:

function MYFUNK(n=2) {
  const url = 'my website url'
  const re = new RegExp(`<p id="un${n}.*\/p>`,'g')
  const r = UrlFetchApp.fetch(url).getContentText();
  const v = r.match(re);
  Logger.log(v);
  return v;
}

我使用了自己的网站,并且有几个段落的 ID 从 un1 到 un7,我将 A1 的值作为唯一参数。每次我更改它时它都会返回正确的字符串。

于 2021-11-26T04:02:28.147 回答