所以我们很多人都在谈论大数据问题。我知道一些应用程序,例如页面排名、k-means 和其他机器学习算法以及网络索引等。
有谁知道任何其他类型的大数据应用程序。
这是一个集体智慧的时代。每天,我们创建大约 2.5 万亿字节的数据。据估计,当今世界上 90% 的数据都是在过去两年中创建的。这就是我们生成数据的速度!这类数据的新来源每天都在堆积。
这些数据来自我们每个人每天无数次离开的在线足迹、用于收集气候信息的各种传感器、我们在社交媒体网站上的帖子、我们的数字图片和视频、短信、在线销售/购买交易记录、手机 GPS 信号和每日新闻文章为数百万部手机提供服务,仅举几例。这些数据就是大数据。
但是,如果我们用纯技术术语谈论:
当使用我们传统的数据库管理工具存储、搜索、分析、共享等给定数量的数据变得困难时,这个庞大而复杂的数据集被称为大数据。
工业界很快意识到数据挖掘的潜力。因此,处理或分析一个组合的巨大数据集,而不是单独处理各种较小的数据集,势必会提供更多的见解/趋势/模式。例如,根据出租车公司预订出租车的历史数据,可以很可能地预测出租车应该在城市的哪个位置、哪种类型的出租车以及一天中的什么时间停放出租!
大数据很难通过传统的处理方式来处理。它可能需要在数十、数百甚至数千台服务器上运行的大规模并行软件。对于像谷歌和苹果这样的大型组织来说,建立这样的服务器集群可能是可行的,但它不适合较小的玩家。但随后商品硬件、云架构和社区驱动的开源软件的进步也将大数据处理带入了较小的范围。即使是初创公司,大数据处理也变得越来越可行,他们可以简单地在云中租用服务器时间,而不是建立自己的服务器机房等等。
大数据的进步每天都在影响着我们!无论是 Facebook 上的“好友推荐”还是 Google 上的“个性化广告”。行业在不断挖掘数据(实际上是大数据)以提供高度个性化的用户体验,同时创造一种新的广告业务,让广告商事先知道您需要购买什么!
所以你去了,很多大数据的实际例子。
资料来源:bigdataspeak