0

我正在尝试下载本网站 (http://www.afghanislamicpress.com/) 的完整存档文件。

我尝试使用 DeepVacuum(http://www.hexcat.com/deepvacuum/index.html),但该网站是动态的(我认为这是正确的词)。

因此,您提交了一个提供文章存档的表单,但它一次只能吐出 5 个(即每页),然后您必须单击通过。我想下载完整数据集的所有单篇文章,但不想手动点击。

我知道有一些简单的方法可以做到这一点,但不完全确定如何。

对新手进行数据抓取等有什么建议吗?

4

1 回答 1

1

最直接的解决方案是联系网站所有者并请求他们允许重新发布他们的文章,并要求提供数字副本。

您当然可以自动下拉分页的内容,但这需要一些编程工作。恕我直言,最好的工具是HTML Agility Pack

请确保并遵守您正在下载的内容的版权和许可条款。

于 2013-01-14T19:35:34.500 回答