- A+
2008年年初,谷歌推出了“谷歌流感趋势”(Google Flu Trends,GFT,网址https://www.google.org/flutrends),这个工具根据谷歌搜索数据的汇总,近乎实时地对全球当前的流感疫情进行估测。当时,“大数据”的概念尚未普及,数据预测技术还处于萌芽期,GFT并未引起广泛关注。2009年,谷歌使用GFT不仅成功预测到H 1N 1在全美范围的传播,而且对病毒爆发时间和地点判断极其准确,媒体纷纷报道了这次令人称奇的预测,GFT引起了全世界的关注。与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的预测指标。
其实,谷歌的工程师们很早就发现:在流感季节,与流感有关的搜索量会明显增多;到了过敏季节,与过敏有关的搜索量会显著上升;而到了夏季,与晒伤有关的搜索量又会大幅增加。我们知道,没有任何患病症状的人是不会去搜索疾病相关的关键词的,因此,疾病相关的关键词搜索量很可能有助于了解疾病的传播和分布情况。2009年2月的Nature杂志刊发了一篇题为Detecting inf luenza epidem ics using search engine query data的论文,文中介绍了GFT的原理。谷歌以相关性为衡量指标,找到了45个与流感就诊密切相关的搜索关键词,然后以这45个关键词的搜索量为参考值,估算流感症状的就诊比例。
图1-1是预测结果与实际数据的对比图,超前两周的曲线表示预测结果随时间的变化,滞后两周的曲线表示实际就诊比例随时间的变化,两条曲线一直十分接近,说明预测得非常准确。
图1-1 GFT的预测结果与实际数据的对比
然而,GFT在受到世界瞩目之后,却遭遇了尴尬的“见光死”。2013年1月,季节性流感再次在美国爆发,这一次GFT遭遇了“滑铁卢”,它预测的就诊数据比实际数据高出两倍之多。媒体报道了GFT的错误预测,并且指出,在2013年之前的很长一段时间内,GFT都高估了流感疫情。从2011年8月—2013年9月的108周中,GFT高估流感疫情长达100周。这些错误不是随机分布的,说明GFT的确出现了错误。
从精准的预测,到巨大的错误,GFT的大起大落令人唏嘘。但不可否认的是,GFT是一次伟大的尝试,是数据预测技术的一次零的突破,从此数据预测渐渐成为科技领域的热门课题。