我正在研究分类算法。为了做到这一点,我需要一个包含来自 wikimedia 的大约 10,000 个静态 HTML 页面的数据集。类似于 page-title-1.html .... page-title-10000.html
我试过谷歌,我发现我最好的解决方案是从http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下载它。
但是,我不知道如何使用它来获得我想要的东西。
有一些文件如下
html.lst 2008-Jun-19 17:25:05 692.2M application/octet-stream
images.lst 2008-Jun-19 18:02:09 307.4M application/octet-stream
skins.lst 2008-Jun-19 17:25:06 6.0K application/octet-stream
wikipedia-en-html.tar.7z 2008-Jun-21 16:44:22 14.3G application/x-7z-compressed
我想知道如何处理 *.lst 文件以及其中的内容wikipedia-en-html.tar.7z