我不知道任何工具,但您可能能够解析内容。一种有趣的实验;)
档案的网址是:yourblog.wordpress.com/year/month;例如 yourblog.wordpress.com/2009/11。页面的内容被包裹在一个 id="content" 的 div 中。每个帖子都包含在一个子 div 中,该 div 包含一个名为“post”的类,目标 href 包含在一个子 H2 标记中。
它看起来大致是这样的:
<div id="content">
<div class="post-597 post hentry category-activeengine category-coaching tag-philosophy">
<h2>
<a title="Permalink for : More than .Net, jQuery, S3 and Corporate-Speak" href="http://activeengine.wordpress.com/2009/11/24/more-than-net-jquery-s3-and-corporate-speak/">More than .Net, jQuery, S3 and Corporate-Speak</a>
<em>November 24, 2009</em>
</h2>
<em class="info"></em>
<div class="snap_preview">
</div>
</div>
<div class="post-562 post hentry category-net category-activeengine category-linux category-mono category-new-techniques category-open-source tag-c tag-mono tag-monodevelop">
潜在地,您可以为每个月存档页面做一次获取,并使用 jQuery 来解析每个帖子的 href。一旦你拥有了所有的 href,你就可以运行另一个进程来拉下每个 html 文件。您还需要处理图像。为方便起见,您可以创建镜像档案的文件夹结构。