0

我是一个新生,我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集,我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。

4

1 回答 1

0

WARC格式是一种广泛使用的标准,绝对是存档网页的好决定。HTTP 标头也包含在 WARC 文件中。因此,您需要一个爬虫来创建 WARC 文件。如果 HTML 页面是作为文件集合提供的,则需要爬取文件系统(例如通过本地 HTTP 服务器)以将内容放入 WARC 文件中。

其他一切都取决于具体任务:有许多工具和库

  1. 抓取内容并将其导出为 WARC:最简单的是wget --warc-file,但还有更多

  2. 读取 WARC 文件并处理内容。

有关工具集,请参阅WARC 生态系统。如果您只需要一个严肃的 WARC 文件开始,请从 Common Crawl 获取一个,例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/ CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz

于 2016-08-19T09:52:28.873 回答