大数据有多大:互联网的数据量级
互联网所涵盖的范围非常广阔,人们产生、分享和消耗的数据量很难以实体形式来衡量,那么到底有多少数据产生呢?
最近,一张以“一天之间,互联网上要发生多少事”为主题的统计图,在各大科学网站上流传,如图1-8所示。
图1-8 互联网上的一天
其结果是非常惊人的,真是“不看不知道,世界真奇妙”!互联网每天产生的流量信息可以装满 1.68 亿张碟;每天发出2 940 亿封邮件,如果这些是实体信件,则美国需要花费2年时间来处理;
每天的社区论坛上发出200万个帖子,相当于美国《时代》杂志770年的文字量;每天世界各地有 1.72 亿人访问 Facebook,4 000 万人访问Twitter,2 200 万人访问 LinkedIn,2 000 万人访问Google+,还有 1 700 万人访问 Pinterest;
人们每天在Facebook 上耗费的时间总计 47 亿分钟;“状态”的更新达5.32亿人;每天有2.5亿张图片上传到Facebook,如果把它们都打印出来,堆起来相当于80座埃菲尔铁塔的高度;
人们每天在Netflix观看2 200 万小时的电视电影节目,相当于全美剧院 3 天播放电影的总时长;每天人们将 86.4万小时视频上传到YouTube,即使不间断地播放,全部播完这些视频也需要98年;
每天有1 870 万小时音乐在Pandora(流媒体音乐网站)上播放,如果一台计算机从公元元年开始播放 Pandora 的音乐,那么它现在仍然处于播放状态;
每天新增 1 288 款应用,下载次数超过 3 500 万次;每天卖出 37.8 万台手机,高于全球每天出生的婴儿数量(37.1 万)。是数字时代的战利品还是一堆数字垃圾,一切由你来决定。
庆幸的是,我们不用像以前那样弄个仓库把它们搬进去存储起来。
在现实生活中,一分钟也许微不足道,连抽袋旱烟的工夫都不够,但是当你用一分钟,看完这行文字的时候:新浪已经发送了2万条微博;
淘宝已经卖出了6万件商品;人人网发生了30万次访问;
百度产生了90万次搜索查询;YouTube用户上传48h的新视频;电子邮件用户发送2.04亿条信息;Google收到超过200万次搜索查询;
Facebook用户分享了68.4万条内容;品牌和企业收到3.5万个“赞”;消费者在网上购物花费了27.2万美元;
Twitter用户发送了超过10 万条微博;苹果公司收到大约 4.7 万个应用下载;Tumblr 博客用户发布 2.8 万个新帖子;WordPress用户发布347篇新博文;
Instagram用户分享36 000张新照片;Flickr用户添加3 125张新照片;Foursquare用户执行2 083次签到;全球有571个新网站诞生;移动互联网新增217个用户。
目前,互联网的数据量已经从TB级跃升至PB、EB乃至ZB级,它们之间的换算关系如表1-1所示。
表1-1 数据存储单位之间的换算关系
2012年12月,IDC(International Data Corporation,国际数据公司)发布了《2020年的数字宇宙》研究报告。报告指出:2005年全球产生的数据量为130 EB,2008年全球产生的数据量为0.49 ZB,2009年的数据量为0.8 ZB,2010年增长为1.2 ZB,2011年的数量更是高达1.82 ZB,2012年数据量为2.8 ZB,按照每两年翻一番的速度,2015年全球数据量将达到近8 ZB,2020年将达到40 ZB(如图1-10所示)。迄今为止,人类生产的所有印刷材料的数据量为200 PB,全人类历史上说过的所有话的数据量大约为5 EB。整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
仅就数据量而言,1.82 ZB 数据相当于:13 亿中国人每人一台1 000 GB容量的计算机所存储的信息量;中国每个人每分钟发送3 条微博且连续6 217年不间断;每位美国人每分钟写3 条Tweet,而且还是不停地写26 976年;全球每人产生200 GB以上的数据;
全世界每人每天进行逾2.15 亿次高分辨率核磁共振成像(Magnetic Resonance Imaging,MRI)扫描;如果把所有这些数据都刻录存入普通 DVD 光盘里,光盘的高度将等同于从地球到月球的一个半来回(即大约720 000英里,1 英里≈1.6km);
超过 2 000 亿个高清电影(每部时长为 2h),一个人 24h 不间断地看这些电影,全部看完需要 4 700 万年;可填满 575亿个32 GB的苹果iPad(如果真有这么多iPad),我们可以:建起一堵长4 005 英里、高61 英尺(1英尺=30.48 cm)、从美国阿拉斯加安克雷奇一直延伸到佛罗里达迈阿密的iPad墙;在中国建起一堵iPad长城,平均高度是真实长城的两倍;围着南美建起一堵高20英尺的墙;覆盖86%的墨西哥城;建起一座比富士山高25倍的山峰。
图1-10 数据量增长
天文学是大数据的典型代表,也是最先经历信息爆炸的科学领域之一,其数据量之大、类型之复杂,恐怕不是一般的行业领域所能比拟的。一台最先进的望远镜扫描整个天空,可能会看到 2 000 亿个恒星世界。我们经常看到的天文奇观的预测报告,其实很多都来自NASA(National Aeronautics and Space Administration,美国航空航天局)背后的海量数据的收集、管理、分析。
从 1959年至今,美国航空航天局约翰逊航天中心(Johnson Space Center,JSC)已收集400 多万幅静态图像,长达950 万英尺的16mm胶卷,85 000 卷录像磁带,以及总时长81 616h 的视频模拟及数码档案。通过开发在线影像应用平台,将影像文件名与所有相关元数据连接,并对其进行存档、管理,以备科研之需。
IDC的《2020年的数字宇宙》研究报告指出,个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式,每个人日常生活都在被数字化。数字宇宙的规模从2006——2011年这五年间膨胀了10倍!