大数据从哪里来:来源泛互联网、工业互联网、行业信息系统和社交网络
数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息,在互联网上查阅数字信息,我们自己也在不断制造新的数字信息。每次用数码相机拍照后,都会产生新的数字信息,通过电子邮件把照片发给朋友和家人,又制造了更多的数字信息。
大数据是从哪里来的?是从天上掉下来的吗?不是。是地球上固有的吗?不是。大数据,只能从泛互联网、工业互联网、行业/企业信息系统和社交网络等中产生。
1.泛互联网。
泛互联网是指使信息和服务通过当下可能的技术和手段在计算设备、通信设备、机器、人之间传递和交付的网络,包括物联网、移动互联网和车联网等。
物联网是指通过射频识别(Radio Frequency Identification,RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物体与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。通俗地说,通过装置在物体上的传感器、电子标签和GPS(Global Positioning System,全球定位系统)等设备,网络将赋予物体智能,从而既可以实现人与物体的沟通和对话,也可以实现物体与物体互相间的沟通和对话。
物联网就是“物物相连的互联网”,其目标是让万物开口说话。世界上的万事万物,小到手表、钥匙,大到汽车、楼房,只要嵌入一个微型感应芯片,把它变得智能化,这个物体就具有“智慧”,可以“自动开口说话”,再借助无线网络技术,人们就可以和物体“对话”,物体和物体之间也能进行“交流”。
以农牧业为例,1990年以来,全球各地陆续爆发动物疫情;2003年12月,美国发现了第一宗疯牛病病例;2004年起,联邦政府农业部启动了“全国动物身份识别系统”的项目,为全国的新生牲畜建档立户、安装射频识别耳标(如图1-12所示)。通过这个移动传感器,对牲畜进行连续跟踪,一旦家畜疫情爆发,就能通过数据库追踪溯源,快速确定传染源和传播范围。目前,美国已经装备射频识别耳标的家畜总数无从得知,但可以肯定这个数据库也是海量级的。
“生命在于运动,通信在于移动”。移动接入已经将世界带到互联网的下一站——移动互联网。得益于更快、更好的连接,移动互联网将成为真正个性化和移动化网络。它势必会完全改变人们使用互联网的方式,甚至改变互联网的本质。移动通信和互联网趋于融合,这一趋势正在影响着全世界人民的生活。谱写这一数字音符的,不是舒伯特、莫扎特,而是移动互联网时代的每个网民以及每部手机、平板计算机、上网本、MID、PDA等移动通信终端。
2013年7月17日,中国互联网络信息中心(CNNIC)在北京发布第32次《中国互联网络发展状况统计报告》。报告显示,3G、移动设备的快速普及和无线应用的多样化极大推动了手机网民的增加,促进了中国互联网的快速发展,且来自手机终端应用的带动作用明显,基于位置的应用等一些属于手机上网的独特应用正在吸引越来越多的用户。截至2013年6月底,我国手机网民规模达4.64亿,网民中使用手机上网人群占比由74.5%提升至78.5%。
我国用手机即时通信网民数为3.97亿,使用率为85.7%;我国用手机搜索网民数达3.24亿,使用率为69.9%;我国用手机上微博的网民数为2.30亿,使用率为49.5%;我国用手机上网在线收看或下载视频的网民数为1.60亿,使用率为34.4%;我国用手机玩网络游戏网民数为1.61亿,使用率为34.8%;手机在线支付网民规模达到 7 911万,使用率提升至17.1%;手机购物网民规模达到7 636万,使用率为16.5%;我国用手机阅读网络文学网民数为2.04亿,使用率为43.9%。
移动互联时代,数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据。即便是在“摩尔定律”的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度,并且差距越来越巨大。1 分钟之内,新浪微博发送数万条微博,苹果应用商店下载次数数以万计,淘宝卖出了几万件商品,百度产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。
随着传统互联网向移动互联发展,全球范围内,除了个人计算机(Personal Computer,PC)、平板计算机、智能手机、游戏主机等常见的计算终端之外,更广阔的、泛在互连的智能设备,比如智能汽车、智能电视、工业设备和手持设备等都连接到网络之中。
基于社会化网络的平台和应用,让数以百亿计的机器、企业、个人随时随地都可获取和产生新的数据。互联网搜索引擎是大数据最为典型的应用之一。百度日处理数据量达到数十PB,并呈现高速增长的态势。如果一张光盘容量为1 GB,这相当于几千万张光盘的容量总和。
微软Bing(在中国名为“必应”)搜索引擎,一周需要响应100亿次量级的搜索请求。通过与Facebook合作,每天有超过10亿次的社交网络搜索请求通过Bing来处理。短短的18个月,中国移动互联网流量增加了10倍。随着社交网络的逐渐成熟、移动带宽迅速提升,更多的传感设备、移动终端接入网络,产生的数据及其增长速度必将比历史上任何时期都要多,互联网上的数据流量正在迅猛增长。在云计算、物联网等技术的带动下,中国的移动互联网已经步入“大数据”时代。
2013年9月23日,IDC发布《中国手机市场季度跟踪报告(2013年第2季度)》研究报告。报告显示,在运营商的大力补贴和消费者旺盛的换机需求拉动下,2013年中国智能手机市场的出货量快速增长,全年中国智能手机出货量将达到 3.6 亿部。
随着 4G 牌照的发放和苹果移动版的上市,预计 2014年中国智能手机出货量将超过 4.5亿部,其中支持4G功能的智能手机为1.2亿部,采用中国移动TD-LTE制式的智能手机将超过3200万部,从而带动整个产业链的大发展——无论是上游的4G芯片和屏幕厂商,还是中游的手机厂商和 APP 开发者,乃至渠道商和配件厂商都会从中获益,并加速大数据产业的革新和发展。
车联网作为移动互联网大背景下诞生的一个产物,不管是车辆的接入、服务内容的选择,还是服务的精准性,都离不开大数据。车辆上传的每一组数据都带有位置信息和时间,并且很容易形成海量数据。时至今日,几乎所有路上跑着的汽车都在产生难以置信的庞大数据量。
从轮胎气压,到发动机转速,到油温和速度,在传感器的监测之下,汽车每小时能产生5~250 GB 的数据。高级概念车产生的数据更多,如谷歌的无人驾驶汽车每秒产生约1 GB 的数据。这相当于每秒发送20 万封纯文本电子邮件或用计算机上传100 张高清数码相片。
当然,从数据洞察角度来看,收到一千条传感器发来的“轮胎压力正常”消息,没有实际的长期价值,汽车厂商们也不会费心去把这些数据存储在汽车中或云端。但考虑到如今路上跑着数以亿计的汽车,如果每一辆车都能产生一点有价值的数据,就会发现一个崭新的天地,你就会明白人们对车联网大数据感兴趣是理所当然的了。
2011年10月,联邦政府商务部下属的国家气象局(National Weather Service,NWS)宣布,该局已经在全国2000辆客运大巴上安装了传感器(如图1-14所示)。随着巴士的移动,这些传感器可以收集沿途所有地点的温度、湿度、光照度等数据,并立刻传回国家气象局的数据中心。数据采集是每10s一次,每天传感器要采集10万次以上的数据。这些数据是实时的、高精度的,这意味着天气预报将不再仅仅是“预”报,将逐渐走向“实”报、“精”报。同时,联邦政府国家邮政局(United States Postal Service,USPS)也宣布,他们计划在全部邮车上安装传感器,当邮车投递邮件的时候,能够实时采集社区的空气质量、污染指数和噪声等数据指标。