我是一个新生,我即将参加这个周末的比赛。问题在于归档和检索大型 HTML 数据集,我对此一无所知。我的朋友建议我使用网络存档和普通爬网。请向我建议一种将 HTML 数据集转换为网络存档的方法以及如何对它们进行索引。提前致谢。
问问题
296 次
1 回答
0
WARC格式是一种广泛使用的标准,绝对是存档网页的好决定。HTTP 标头也包含在 WARC 文件中。因此,您需要一个爬虫来创建 WARC 文件。如果 HTML 页面是作为文件集合提供的,则需要爬取文件系统(例如通过本地 HTTP 服务器)以将内容放入 WARC 文件中。
其他一切都取决于具体任务:有许多工具和库
抓取内容并将其导出为 WARC:最简单的是
wget --warc-file
,但还有更多读取 WARC 文件并处理内容。
有关工具集,请参阅WARC 生态系统。如果您只需要一个严肃的 WARC 文件开始,请从 Common Crawl 获取一个,例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/ CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz
于 2016-08-19T09:52:28.873 回答