xml-parsing - 从 Wikipedia XML 转储中获取静态 HTML 文件

Question

我希望能够从我从WikiMedia 转储页面下载的巨大（即使是压缩的）英文维基百科 XML 转储文件 enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态 HTML 文件。似乎有很多可用的工具，尽管它们的文档很少，所以我不知道它们中的大多数是做什么的，或者它们是否与最新的转储保持同步。（我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫，尽管我对 SQL 和 XML 很糟糕，而且我不希望至少再过一年都能很好地使用它们。）我希望能够爬取从离线转储中获得的 HTML 文件，而无需求助于在线爬取维基百科。

有谁知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具？

score 4 · Accepted Answer

首先，导入数据。然后使用DumpHTML创建 HTML 文件。虽然理论上很简单，但由于涉及的数据量和 DumpHTML 有点被忽视，这个过程在实践中可能会很复杂，所以请不要犹豫寻求帮助。

xml-parsing - 从 Wikipedia XML 转储中获取静态 HTML 文件

1 回答 1

Related

Reference