我的问题是面向方法的。我目前正在做一些项目。所有项目都将面临需要获取和维护的大量数据。我的一个项目是关于网络爬虫系统。正如它所定义的,网络爬虫将存储大量数据。我现在正在mysql数据库中维护数据。但是我怀疑如果数据库很大会发生什么。?我不想妥协于系统的速度。我有2个问题,
1) 当 db 变大时,MySql 会面临速度问题吗?
2)如果我为每个网站创建单独的文件并将其数据存储在该文件中会怎样。它会帮助解决速度问题吗?
我的问题是面向方法的。我目前正在做一些项目。所有项目都将面临需要获取和维护的大量数据。我的一个项目是关于网络爬虫系统。正如它所定义的,网络爬虫将存储大量数据。我现在正在mysql数据库中维护数据。但是我怀疑如果数据库很大会发生什么。?我不想妥协于系统的速度。我有2个问题,
1) 当 db 变大时,MySql 会面临速度问题吗?
2)如果我为每个网站创建单独的文件并将其数据存储在该文件中会怎样。它会帮助解决速度问题吗?
一般来说,数据库是为性能而构建的,并且可以很好地处理大量数据。他们甚至索引数据以便快速访问,并且非常聪明地快速获取数据(查询优化)。
因此,IMO,如果您不必在数据库上执行昂贵的查询(有很多很多的连接)或者必须执行SQL 未涵盖的查询,那么您完全可以使用关系数据库。如果您担心磁盘空间,您可以尝试使用具有压缩功能的 PostgreSQL,(以便将更多数据保存在内存中以获得更好的性能)