war - 如何归档和检索大型 HTML 数据集？

翻译自：https://stackoverflow.com/questions/39019063 2016-08-18T13:06:27.890

296 次

0

我是一个新生，我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集，我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。

1 回答 1

0

WARC格式是一种广泛使用的标准，绝对是存档网页的好决定。HTTP 标头也包含在 WARC 文件中。因此，您需要一个爬虫来创建 WARC 文件。如果 HTML 页面是作为文件集合提供的，则需要爬取文件系统（例如通过本地 HTTP 服务器）以将内容放入 WARC 文件中。

其他一切都取决于具体任务：有许多工具和库

抓取内容并将其导出为 WARC：最简单的是wget --warc-file，但还有更多
读取 WARC 文件并处理内容。

有关工具集，请参阅WARC 生态系统。如果您只需要一个严肃的 WARC 文件开始，请从 Common Crawl 获取一个，例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/ CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz

于 2016-08-19T09:52:28.873 回答