0

我们有一个问题,Hadoop 是否适合不需要运行应用程序但需要非常快速地读写少量数据的简单任务。

要求是能够以每秒 30 的速率编写带有一对索引的大约 100-200 字节长的消息,同时能够以每秒大约 10 的速率读取(通过这两个索引搜索)。读取查询必须非常快 - 每个查询最多 100-200 毫秒并返回少量匹配记录。

总数据量预计将达到 50-100 GB,并将通过删除较旧的记录(例如删除 14 天以上的记录的日常任务)保持此速度

如您所见,总数据量并没有那么大,但我们担心 Hadoop 的搜索速度可能会比我们需要的要慢。

Hadoop是一个解决方案吗?

谢谢尼克

4

2 回答 2

2

单独的 Hadoop 在提供许多小数据段方面非常糟糕。然而,HBase 是一个类似索引表数据库的系统,旨在运行在 Hadoop 之上。它非常擅长提供小型索引文件。我会研究它作为解决方案。

另一个需要注意的问题是将数据导入 HDFS 或 HBase 并非易事。它会使你的集群变慢很多,所以如果你选择 Hadoop,你还必须解决如何将这 75GB 放入 HDFS 以便 Hadoop 可以接触它们。

于 2012-06-15T15:27:32.827 回答
0

As Sam noted HBase is the Hadoop stack solution that can handle your requirements. However I wouldn't go with Hadoop if these are your only requirements from the data.

You can go with other NoSQL solutions like MongoDB or CouchDB or even MySQL or Postgres

于 2012-06-15T19:04:12.317 回答