我想写一个简单的网络蜘蛛或者只是用来wget
从谷歌学者下载 pdf 结果。这实际上是一种获取研究论文的好方法。
我已阅读有关 stackoverflow 的以下页面:
如何使用 wget 从网站下载所有文件(但不是 HTML)?
最后一页可能是最鼓舞人心的。我确实尝试按照此wget
建议使用。
因此,我的谷歌学者搜索结果页面是但没有下载任何内容。
鉴于我对 webspider 的了解程度很低,我应该怎么做才能做到这一点?我确实意识到编写蜘蛛可能非常复杂,并且是我可能不想承担的项目。如果可以使用wget
,那绝对很棒。