我是 Web 开发(和一般开发)的新手,我正在构建一个从第三方网站抓取数据的 Rails 应用程序。我正在使用 Nokogiri 解析我感兴趣的特定 html 元素,这些元素存储在数据库中。
但是,我想保存我正在抓取的整个页面的 html 作为备份,以防我改变了我想要的信息类型以及网站删除该网站(或更新它)的想法。
存储归档 html 的最佳做法是什么?我应该将其提取为字符串并将其放入数据库中,将其写入日志或文本文件,还是什么?
编辑:
我应该澄清一下。我每周爬取大约 10K 个网站,如果我重新定义我想要的数据类型,我预计只需要一次性访问备份。
举个例子,如果正在爬取联合国关于国家人口数据的数据,最初是在查看年龄分布,但后来意识到我也想获得性别分布,我想回到我所有的 HTML 档案并提取数据出去。我预计这种情况不会发生太多(可能每月 1-3 次),但当它发生时,我希望在 10K-100K 列表中检索它。这项任务应该只需要几个小时来完成大约 10K 条记录,所以我猜每个网站获取最多需要一秒钟。我不需要任何版本控制功能。希望这可以澄清。