我正在用 Python 编写一个网络爬虫,它将在 MySQL 数据库中存储大量页面的 HTML 代码。在开始处理数据之前,我想确保我的存储和处理方法是最佳的。我想:
最小化数据库中使用的存储空间——可能通过缩小 HTML 代码、霍夫曼编码或其他某种形式的压缩。我想保持全文搜索该字段的可能性 - 我不知道像霍夫曼编码这样的压缩算法是否允许这样做。
最大限度地减少编码和存储大量行所需的处理器使用量。
有没有人对此或类似问题有任何建议或经验?鉴于 Python 将需要大量 HTTP 请求和正则表达式以及任何最佳压缩,Python 是否是执行此操作的最佳语言?