给定一个 URL 列表,如何实现以下自动化任务(假设 windows 和 ubuntu 是可用的 O/Ses)?是否有现有类型的工具可以使实现这一点更容易或开箱即用?
log in with already-known credentials
for each specified url
request page from server
wait for page to be returned (no specific max time limit)
if request times out, try again (try x times)
if server replies, or x attempts failed, request next url
end for each
// Note: this is intentionally *not* asynchronous to be nice to the web-server.
背景:我正在实现一个工作工具,该工具将从 Web 服务器请求页面,因此这些页面需要处理的数据将被缓存以备后用。工作人员不关心结果页面的内容,尽管它可能关心 HTML 状态代码。我考虑过幻像/casper/node 设置,但对这项技术不是很熟悉,也不想重新发明轮子(即使它会很有趣)。