3

我正在开发一个网络爬虫,哪个适合存储数据?Cassandra 或 Hadoop Hive 或 MySQL?为什么?我的 MySQL 数据库中有过去 6 个月的 1TB 数据,我需要为它们编制索引,我需要尽快在我的搜索中输出,正如我想的那样,它会存储更多的数据,比如 10 Peta Byes,因为我的爬虫运行速度很快,我需要快速进行读/写操作,我需要将它集成到我的 PHP 应用程序中

4

3 回答 3

3

这取决于您的要求的详细信息,但我认为在您的情况下,HBase 将是最佳选择。
将 HBase 用作网络爬虫数据库已有详细记录,BigTable 白皮书中描述了 HBase 的使用。

于 2010-08-17T22:32:45.693 回答
0

您正在寻找旨在根据内容查找文档的东西——它应该基于倒排索引。我认为最合适的应该是Lucene

另请参阅这篇关于用于查询 TB 级文档的 Hadoop-Lucene 堆栈的文章。

于 2010-08-20T03:48:07.220 回答
0

这取决于您的要求,在实时快速分析流数据的情况下使用 HBASE。Cassandra 最适合快速写入场景,因为它的读取速度比 HBASE 慢。

Hive 也是一个不错的选择。为了提高蜂巢性能,请使用 Impala。

于 2013-10-01T05:07:50.820 回答