dataset - 如何从 Wiki 获取 10.000 个静态 html 页面的数据集

Question

我正在研究分类算法。为了做到这一点，我需要一个包含来自 wikimedia 的大约 10,000 个静态 HTML 页面的数据集。类似于 page-title-1.html .... page-title-10000.html

我试过谷歌，我发现我最好的解决方案是从http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下载它。

但是，我不知道如何使用它来获得我想要的东西。

有一些文件如下

html.lst    2008-Jun-19 17:25:05    692.2M  application/octet-stream
images.lst  2008-Jun-19 18:02:09    307.4M  application/octet-stream
skins.lst   2008-Jun-19 17:25:06    6.0K    application/octet-stream
wikipedia-en-html.tar.7z    2008-Jun-21 16:44:22    14.3G   application/x-7z-compressed

我想知道如何处理 *.lst 文件以及其中的内容wikipedia-en-html.tar.7z

score 0 · Accepted Answer

您可能想阅读Wikipedia上 数据库下载的“用于镜像或 CD 分发的静态 HTML 树转储”部分（实际上是整个页面，它指向 7zip 用于解压缩主存档）。

dataset - 如何从 Wiki 获取 10.000 个静态 html 页面的数据集

1 回答 1

Related

Reference