我的想法是使用 wget 创建一个非常大的博客的所有线程的完整列表(根据博客本身的线程总数为 50,000)。我在 --spider 模式下使用 wget 来抓取网站并将网址输出到文本文件中。在 1d 3h 3m 3s wget 完成它的工作后,我发现“只有”9668 个文件与网站上提供的 50,000 个文件相比。根据 wget 643 链接被破坏所以我的第一个想法是检查丢失的线程是否与断开的链接有某种关系,但显然它们不是。该博客将其主题保存在以年和月命名的文件夹中(例如/2012/01/name_of_thread.html)。一些损坏的链接似乎是指 wget 从中下载一些线程的文件夹,因此我将排除所选文件夹的中断。
我从哪里开始了解出了什么问题?