0

我正在开发一个网络爬虫,它可以抓取网上商店并查找产品。目前我只存储一个价格,最近发现的,但我也想存储历史记录。我将 MariaDB (5.3.8) 与 InnoDB 表一起用于主数据库。

但是,我不确定 MariaDB/MySQL 可能是价格历史的最佳数据库。

我每天最多可以为每个产品节省一个价格,数据保留期约为 2-4 年。我的产品表将包含大约 200 万行,这将使价格历史记录的行数在一年内达到大约 7.3 亿。

这相当多,我想。

需要快速访问此数据(可通过数字 ID(产品 ID)或 SHA1 哈希值识别,无论哪个更好/更容易)。

需要保存的数据很简单:

product_id、价格、日期(没时间!)

处理它的数据库软件将承受沉重的负担,因为 INSERT 会经常发生,而 SELECT 会同样频繁地发生,如果不是更频繁的话。为了最小化 SELECT 查询,每隔一段时间将数据聚合到另一个数据库是可能的,但我宁愿避免它,以免添加另一层“帮助脚本”。

根本不会执行任何删除操作。

你有什么建议?

4

1 回答 1

0

对于任何 RDBMS 来说,这都是一个简单的场景。只需插入这个带有 1-2 个索引的窄表就完全没有问题。每年 7.3 亿行也完全没问题(我想知道以 GB 为单位的数据有多大——可能是 10-20GB?)。

您应该根据战略考虑进行选择。您已经拥有并使用了哪些 RDBMS?你熟悉什么?备份、高可用性呢?

于 2013-02-14T11:52:02.583 回答