我想创建一个网络爬虫,它获取一些网站的内容并将其保存在 blob 存储中。在 Azure 上执行此操作的正确方法是什么?我应该开始一个 Worker 角色,并使用 Thread.Sleep 方法让它每天运行一次吗?
我还想知道,如果我使用这个 Worker Role,如果我创建它的两个实例,它将如何工作?我注意到使用“Compute Emulator UI”命令“Trace.WriteLine”同时在两个实例上工作,有人可以澄清这一点。
我使用 php 创建了相同的爬虫并将 cron 作业设置为每天启动一次脚本,但是抓取整个内容需要 6 个小时,这就是我想使用 Azure 的原因。