我正在开发一个网络爬虫,它可以抓取网上商店并查找产品。目前我只存储一个价格,最近发现的,但我也想存储历史记录。我将 MariaDB (5.3.8) 与 InnoDB 表一起用于主数据库。
但是,我不确定 MariaDB/MySQL 可能是价格历史的最佳数据库。
我每天最多可以为每个产品节省一个价格,数据保留期约为 2-4 年。我的产品表将包含大约 200 万行,这将使价格历史记录的行数在一年内达到大约 7.3 亿。
这相当多,我想。
需要快速访问此数据(可通过数字 ID(产品 ID)或 SHA1 哈希值识别,无论哪个更好/更容易)。
需要保存的数据很简单:
product_id、价格、日期(没时间!)
处理它的数据库软件将承受沉重的负担,因为 INSERT 会经常发生,而 SELECT 会同样频繁地发生,如果不是更频繁的话。为了最小化 SELECT 查询,每隔一段时间将数据聚合到另一个数据库是可能的,但我宁愿避免它,以免添加另一层“帮助脚本”。
根本不会执行任何删除操作。
你有什么建议?