我正在尝试下载本网站 (http://www.afghanislamicpress.com/) 的完整存档文件。
我尝试使用 DeepVacuum(http://www.hexcat.com/deepvacuum/index.html),但该网站是动态的(我认为这是正确的词)。
因此,您提交了一个提供文章存档的表单,但它一次只能吐出 5 个(即每页),然后您必须单击通过。我想下载完整数据集的所有单篇文章,但不想手动点击。
我知道有一些简单的方法可以做到这一点,但不完全确定如何。
对新手进行数据抓取等有什么建议吗?