mysql - Cassandra 或 Hadoop Hive 或 MYSQL？

Question

我正在开发一个网络爬虫，哪个适合存储数据？Cassandra 或 Hadoop Hive 或 MySQL？为什么？我的 MySQL 数据库中有过去 6 个月的 1TB 数据，我需要为它们编制索引，我需要尽快在我的搜索中输出，正如我想的那样，它会存储更多的数据，比如 10 Peta Byes，因为我的爬虫运行速度很快，我需要快速进行读/写操作，我需要将它集成到我的 PHP 应用程序中

score 3 · Accepted Answer

这取决于您的要求的详细信息，但我认为在您的情况下，HBase 将是最佳选择。
将 HBase 用作网络爬虫数据库已有详细记录，BigTable 白皮书中描述了 HBase 的使用。

score 0 · Accepted Answer

您正在寻找旨在根据内容查找文档的东西——它应该基于倒排索引。我认为最合适的应该是Lucene。

另请参阅这篇关于用于查询 TB 级文档的 Hadoop-Lucene 堆栈的文章。

score 0 · Accepted Answer

这取决于您的要求，在实时快速分析流数据的情况下使用 HBASE。Cassandra 最适合快速写入场景，因为它的读取速度比 HBASE 慢。

Hive 也是一个不错的选择。为了提高蜂巢性能，请使用 Impala。

mysql - Cassandra 或 Hadoop Hive 或 MYSQL？

3 回答 3

Related

Reference