有多少数据有资格被归类为大数据?
有多大的数据可以决定现在是采用 Hadoop 之类的技术并利用分布式计算的力量的时候了?
我相信使用这些技术有一定的溢价,那么如何确保使用大数据方法能够利用当前系统呢?
“大数据”是一个有点模糊的术语,更多地用于营销目的而不是做出技术决策。一个人称之为“大数据”的另一个人可能会认为它只是单个系统上的日常操作。
我的经验法则是,大数据始于您拥有一组不适合单个系统的主内存的工作数据。工作集是您在给定时间积极处理的数据。因此,例如,如果您有一个存储 10 TB 数据的文件系统,但您正在使用它来存储视频以进行编辑,那么您的编辑人员在任何给定时间可能只需要几百个演出;他们通常从光盘上流式传输数据,这不需要随机访问。但是,如果您尝试对定期更改的完整 10 TB 数据集进行数据库查询,您不希望从磁盘上提供这些数据;这开始成为“大数据”。
对于基本的经验法则,我现在可以为 2 TB 的 RAM 配置现成的戴尔服务器。但是,您需要为将这么多 RAM 塞入单个系统而付出高昂的代价。单台服务器上 512 GB 的 RAM 更实惠,因此使用 4 台 512 GB RAM 的机器通常比使用 2 TB 的单台机器更具成本效益。因此,您可能会说超过 512 GB 的工作集数据(您需要在日常基础上访问任何给定计算的数据)将符合“大数据”的条件。
鉴于为“大数据”系统开发软件相对于传统数据库的额外成本,对于某些人来说,迁移到 2 TB 系统而不是重新设计他们的系统以分布在多个系统之间可能更具成本效益,所以根据您的需要,512 GB 到 2 TB 的数据可能是您需要迁移到“大数据”系统的地方。
我不会使用“大数据”一词来做出任何技术决策。相反,制定您的实际需求,并确定现在需要什么样的技术来满足这些需求。稍微考虑一下增长,但也要记住系统的容量仍在增长;所以不要试图过度计划。许多“大数据”系统可能难以使用且不灵活,因此如果您实际上并不需要它们将数据和计算传播到数十或数百个系统,那么它们可能会带来更多麻烦而不是价值。
To quote from the wiki page for Bigdata:
When it becomes difficult to store, search, analyse, share etc. a given amount of data using our traditional database management tools, that large and complex dataset is called to be Bigdata.
Basically, it’s all relative. What is considered Bigdata varies depending on the capabilities of the organization managing the dataset. For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.
Amount of data is just one of the key elements in defining Bigdata. Variety
in data and the velocity
at which data increases are other two major elements in defining a data set to be Bigdata.
Variety
in data means having many different data and file types which may required to be analyzed and processed in ways which is out of bounds of traditional relational databases.Some examples of this variety include sound and movie files, images, documents, geo-spatial data, web logs, and text strings.
Velocity
is about the speed of change in the data and how quickly it must be processed to generate significant value. Traditional technologies are especially poorly suited to storing and using high-velocity data. So new approaches are needed. If the data in question is created and aggregates very quickly and must be used swiftly to uncover patterns and problems, the greater the velocity and the more likely you are to have a Bigdata problem at hand.
By the way if you are looking for a 'cost-effective' solution, you can explore amazon's EMR.