2013年8月,谷歌公司把大数据技术成功应用到电影票房的预测上,并撰文公布了研究成果Quantifying Movie Magic with Google Search。该报告称,谷歌的预测模型可以提前一个月预测电影上映的首周票房,准确度高达94%。令人吃惊的是,谷歌并没有搜集各种电影相关的数据来提高预测准确度,而是仅仅使用了他们自有的数据——单词搜索量,而且,谷歌的预测模型居然是概率统计中最简单的线性回归模型。
据谷歌统计,从2011—2012年,谷歌的电影相关搜索量增长了56%,正是由于人们越来越多地使用谷歌搜索电影相关信息,才使得谷歌萌发了票房预测的想法。
谷歌的工程师们画出了2012年电影相关的搜索总量和票房总收入的曲线图,如图1-1所示,实线表示电影相关关键词的搜索量随时间的变化趋势,虚线表示电影票房随时间的变化趋势,两条曲线的起伏变化十分相似。
图1-1 2012年电影票房和电影相关词搜索量随时间的变化曲线
如此相似的两条曲线激起了谷歌工程师的好奇心,这似乎预示着两条曲线存在很强的相关性。谷歌的工程师们将电影搜索进而分为两类——电影名搜索和电影相关词搜索,并画出两类搜索量和票房收入的关系。如图1-2所示,虚线仍然表示电影票房随时间的变化趋势,起伏较大的实线表示电影名搜索量随时间的变化趋势,较平坦的实线表示电影相关词的搜索量随时间的变化趋势。图1-2中曲线显示,电影名往往比电影相关词的搜索量更大,但在电影上映的淡季(图1-2中阴影部分),电影相关词的搜索量反超了电影名的搜索量,这是因为那时没有好看的电影,人们会转而搜索诸如“好莱坞电影”“功夫片”之类的词汇。两类关键词搜索量的变化趋势与票房变化趋势仍然十分相似。
图1-2 2012年电影票房和两类关键词搜索量随时间的变化曲线
前面的研究似乎说明了搜索量和票房之间强烈的相关关系,所以,谷歌要再进一步:提前一周预测一部电影的票房。谷歌选取了2012年上映的99部电影,画出了搜索量和票房的关系图,并试图构建一个线性模型,可是预测准确度只有70%,如图8-4所示。为了提高预测准确度,谷歌需要搜集更多的数据,经过反复的试验,它们选定了放映前一周的搜索量、广告点击量、上映影院数量和同系列电影前几部的票房表现四类指标,重新构建线性模型,将预测准确率一举提高到了92%。
可惜的是,提前一周预测票房对电影的营销几乎没有帮助,因为在电影上映前一周,营销策略几乎无法更改,即使更改,效果也来不及体现。因此,谷歌需要挑战更高的难度——提前一个月预测。
在电影上映前一个月,电影的搜索量还不够多,难以用来预测,谷歌挖掘出了另一个更有说服力的指标——电影预告片的搜索量。现在,几乎每部电影都会在放映前投放预告片,观众也喜欢在影片上映前搜索预告片来观看,因此,谷歌将预告片的搜索量作为票房预测的一个指标。除此之外,谷歌还选择了以同系列电影前几部的票房和档期的旺季淡季特征作为参考指标,使用这些指标构建的线性模型最终实现了准确率高达94%的预测。
图1-3 99部电影的票房和搜索量的线性回归模型