高盛银行为本届世界杯打造的统计模型听起来颇为瞩目:这家投资银行对参赛球队和球员的数据进行挖掘,利用人工智能技术预测可能影响比赛结果的因素,并模拟出一百万种可能的赛事进展。随着比赛的进行,这一模型不断进行更新,结果是一错再错。当然,它没有预测出站在决赛场上的是法国和克罗地亚。
高盛模型试图精准预测足球比赛结果的失败,足以让人嘲笑精英银行家们的傲慢(他们还将相似的复杂模型应用于投资决策)。左上方机会基金(Upper Left Opportunities Fund)创始人汤姆·佩尔(Tom Pair)近日在推文中写道:
“当然,过去的数据并不总是能预测未来;高盛从来没有让客户们仅仅根据模型的结果做出决定。而在任何情况下,这一模型都只是计算出赢球和晋级的可能性而已,给各队设定的夺冠机会都不超过18.5%。这件事给我们的教训是,大数据和人工智能等引发热议的技术并不一定能使统计预测变得更准确。”
2014年世界杯时,高盛进行了一次不似今年这般野心勃勃的统计工程。预测模型只采用了特定的球队统计数据,例如某队在过去十场正式国际比赛中的进球数以及球队的国际排名,还有决定各队距本国路途长度的种种变量。首次模拟得到的结果是,巴西在半决赛中2比1击败德国,最终3比1力克阿根廷捧杯。卫冕冠军西班牙则在另一场半决赛中不敌阿根廷。
我们现在都知道,西班牙在小组赛即被淘汰,巴西则1比7负于德国,后者最终成为世界冠军。事后,高盛经济学家扬·哈丘斯(Jan Hatzius)和斯文·亚里·施特恩(Sven Jari Stehn)将预测模型失败的部分原因归结于足球运动“本质的随机性”,二人写道:
“根据模型的预测,巴西将以2比1取胜,但实际则是德国人带走一场7比1的胜利。我们对预测失败感到遗憾。但作为德国人,我们同时要指出,世界上有比事实正确更重要的事情。”
对于更精密的2018世界杯预测工作,高盛的经济学家们将大量的球队与球员数据应用于四种不同的数据处理模型,以得出统计模型的预测能力。这之后,经济学家们开始进行模拟,从而计算出每场比赛最有可能出现的结果。加入球员层面变量(例如某名球员在队里的平均评级,以及防守与进攻能力的量化数据)后得出的最初结果看起来令人满意。人工智能使得更为精细的数据成为可能。也正是由于详细数据的引入,今年的预测模型理应比2014年的版本出色。
恰恰相反,今年的结果更糟了。
2014年的模型成功预测出三支跻身半决赛的球队,所以总体上差得没有那么多。巴西对德国的历史性惨败难以重现,将会永远地存在于这两个足球大国的记忆之中。计算机绝对不可能预测出这种结果。
到了2018年世界杯,高盛模型首先预测出的四强是巴西、法国、德国和葡萄牙,巴西将在决赛中战胜德国。而实际上,四支球队中只有法国最终晋级半决赛。
高盛在世界杯期间对模型进行了更新。根据6月29日和7月4日的两次预测,决赛双方将分别为“巴西和西班牙”以及“巴西与法国”。后来的预测则给出了英格兰和比利时争冠的结果。两队最终都在半决赛中出局。
当然,预测不是百万美元的注乃至许诺。“即便拥有最先进的统计技术,预测依然是高度不确定的,原因很简单,足球就是一项不可预测的运动。”施特恩与同事马纳夫·乔杜里(Manav Chaudhary)和尼古拉斯·福西特(Nicholas Fawcett)写道,“而这正是世界杯的观看体验给外刺激的原因。”
至少他们最后的预测成真了。
公平地说,在精细模型无法处理复杂任务方面,高盛并不是独一家。瑞士联合银行(以下称“瑞银”)的预测结果显示,德国拥有最高的夺冠几率,巴西、西班牙和英格兰紧随其后。根据瑞银的计算,克罗地亚仅有4.4%的可能性晋级半决赛。研究人员对赔率进行处理后得到的结果和庄家赔率几乎没有出入。
但高盛的预测滑铁卢或许是最令人难以理解的。现代技术的出现将极为细致的数据引入计算模型中,催生出对大幅增强预测能力的迷思。但即便是最为精心打造,由人工智能驱动的全面数据分析模型,可能也远没有人生来得复杂。存在大量影响结果因素(球员伤病与队内矛盾,裁判、天气、教练决策错误以及激励效应等)的足球运动,仍是由一小部分人牢牢把控的游戏。而基于过去的相关数据,对大企业、整个行业以及国家的行为与表现进行预测只会更加困难。
当今数据模型的复杂技术不应蒙蔽我们的判断。无论我们多么努力地试图用数据库主导人生,它仍然是最后的赢家。
延展阅读:
苏宁体育完成40亿元融资,阿里高盛领投、云峰恒大等跟投
斯杯第14年:棕榈体育参与运营、东风悦达起亚冠名
声明:本文为懒熊体育编译自Bloomberg,原文作者为Leonid Bershidsky。