node.js - 从网络服务器逐一请求网页列表的最简单方法是什么？

Question

给定一个 URL 列表，如何实现以下自动化任务（假设 windows 和 ubuntu 是可用的 O/Ses）？是否有现有类型的工具可以使实现这一点更容易或开箱即用？

log in with already-known credentials
for each specified url 
  request page from server
  wait for page to be returned (no specific max time limit)
  if request times out, try again (try x times)
  if server replies, or x attempts failed, request next url
end for each
// Note: this is intentionally *not* asynchronous to be nice to the web-server.

背景：我正在实现一个工作工具，该工具将从 Web 服务器请求页面，因此这些页面需要处理的数据将被缓存以备后用。工作人员不关心结果页面的内容，尽管它可能关心 HTML 状态代码。我考虑过幻像/casper/node 设置，但对这项技术不是很熟悉，也不想重新发明轮子（即使它会很有趣）。

score 1 · Accepted Answer

您可以使用 http 模块轻松请求页面。

这是一个例子。

有些人更喜欢 npm 中提供的请求模块。

这是github页面的链接

如果你需要更多，你可以使用 phantomjs。

这是 github 页面的链接，用于桥接节点和幻像

但是，您也可以寻找用于发出请求的简单 cli 命令，例如wget或curl。

node.js - 从网络服务器逐一请求网页列表的最简单方法是什么？

1 回答 1

Related

Reference