1

如果这违反任何规则等,我提前道歉。我正在尝试使用 wget 在本地克隆我的 tumblr 博客,效果很好,减去了一个问题。它完全克隆了页面,但我使用的主题中有一个无限滚动脚本,因此在用户向下滚动到最后一个帖子之前,不会加载其他帖子。这是一个问题,因为 wget 只会捕获第一页,仅此而已。

目前,我正在使用:wget --random-wait -r -p -e robots=off -U mozilla http://.tumblr.com

有什么方法可以单独使用 wget 完成这项任务吗?感谢您的时间和帮助。

4

2 回答 2

2

您是否尝试过从 开始/archive

在任何情况下,我发现以下内容对于获取具有主题但没有无限滚动的博客的完整副本很有用:

wget --user-agent="Mozilla/5.0 XXX" \
--recursive --level=0 --convert-links --backup-converted --page-requisites \
--domains="xkcd.tumblr.com,media.tumblr.com" --exclude-domains="." --span-hosts \
http://xkcd.tumblr.com/
于 2013-10-29T03:01:28.743 回答
1

wget不会这样做,因为它不处理页面中的 javascript。你最好的选择是使用tumblr API。它提供了一种抓取和发布博客数据的机制。

于 2012-06-26T18:35:33.467 回答