我希望能够从我从WikiMedia 转储页面下载的巨大(即使是压缩的)英文维基百科 XML 转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态 HTML 文件。似乎有很多可用的工具,尽管它们的文档很少,所以我不知道它们中的大多数是做什么的,或者它们是否与最新的转储保持同步。(我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫,尽管我对 SQL 和 XML 很糟糕,而且我不希望至少再过一年都能很好地使用它们。)我希望能够爬取从离线转储中获得的 HTML 文件,而无需求助于在线爬取维基百科。
有谁知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具?