11

我希望能够从我从WikiMedia 转储页面下载的巨大(即使是压缩的)英文维基百科 XML 转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态 HTML 文件。似乎有很多可用的工具,尽管它们的文档很少,所以我不知道它们中的大多数是做什么的,或者它们是否与最新的转储保持同步。(我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫,尽管我对 SQL 和 XML 很糟糕,而且我不希望至少再过一年都能很好地使用它们。)我希望能够爬取从离线转储中获得的 HTML 文件,而无需求助于在线爬取维基百科。

有谁知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具?

4

1 回答 1

4

首先,导入数据然后使用DumpHTML创建 HTML 文件。虽然理论上很简单,但由于涉及的数据量和 DumpHTML 有点被忽视,这个过程在实践中可能会很复杂,所以请不要犹豫 寻求帮助

于 2012-05-23T07:21:16.193 回答