世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

硅谷Live / 实地探访 / 热点探秘/ 深度探讨

世界杯来啦!相信不少球迷最近都没少熬夜看球,就连小探这种伪球迷,都被世界杯的气氛感染到了。今天咱们就来聊聊本届世界杯里的新玩意儿、新科技。

小探把这些世界杯上的新科技归为两类:视觉辅助一类,数据驱动一类。我们先聊视觉辅助、再聊数据驱动,最后再看看在大数据喂养下的机器学习“神算子”,算出的本次世界杯冠军到底是谁?

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

视觉助理裁判

视频助理裁判(Video Assisted Referees,简称 VAR)可能是今年世界杯最令人兴奋的部分了!VAR 将在今年的比赛中首次作为裁判的附加助手使用。VAR 技术由一组位于远程视频室的助理人员组成,他们将利用视频技术帮主裁判做决定。

说起这些视频助理裁判,还真是挺 “大牌”,他们只用在可能会决定一场球赛胜负的关键时刻,比如进没进球、要不要红牌罚下之类的。

首先由裁判决定需不需要用 VAR,如果裁判觉得有用 VAR 的必要,VAR 远程协助小组会在场外幕后播放录像,然后会把结果通过裁判戴的耳麦传给裁判。此时裁判有两种选择:如果选择全盘相信 VAR,裁判就直接做决定;如果裁判仍然存疑,则可以自己在球场边再看一遍录像,然后再做决定。

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

在场边看 VAR 裁判发来的录像

本届世界杯上 VAR 出尽风头、屡屡发威,尤其 6月 22 号巴西对哥斯达黎加的那场比赛,VAR 更是对比赛得分造成了决定性的影响:在主裁判判罚点球后,根据观看 VAR 回放,主裁判又将点球取消—— 这在世界杯可是史无前例!

巴西名将内马尔当时正在尝试踩球过人,遇到哥斯达黎加中卫冈萨雷斯的防守后,两人发生身体接触,内马尔惨叫一声,四脚朝天倒在禁区内动不了了,主裁判因此第一时间判罚点球。

没想到哥斯达黎加球员强烈抗议,主裁判只好走到场边看视频回放。然后没想到的一幕发生了:回到场内后,裁判宣布取消此前的点球判罚!

这是远镜头,的确看不太清:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

喏,这是正面镜头,你自己判断到底哥斯达黎加球员的手到底碰没碰到内马尔的球衣、内马尔有没有必要惨叫倒下。

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

放错了,这个才是:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

这可真是人在做,VAR 在看。如果早几十年有 VAR,不知道 1986 年阿根廷对阵英格兰的 “上帝之手”、2002 年韩国世界杯韩国对阵西班牙等比赛的历史,是否会被改写。

那么,VAR 是怎么得到这些图像的呢?这要得益于分布全场的33个摄像头:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

图自 FIFA 官网

VAR 的鹰眼系统由英国 Roke Manor Research Limited 研发。33 台广播摄像机里,有 8 台是慢动作摄像机,还有 4 台是超慢动作摄像机。但其实我们看的球赛直播只是 33 台摄像机里的 31 台播的画面,剩下 2 台是 VAR 的专属摄像机,只有 VAR 能看到里面的内容。在淘汰赛阶段,每个球门的后面会再安装两个超慢动作摄像机,这也是只有 VAR 团队才能看的。

有意思的是,根据国际足联规定,慢动作摄像机主要用于关于客观的事实情况的纠纷,比如到底手打到哪儿了;而主观判断—— 比如一个动作到底有多犯规、或者一个手球是不是故意的 ——则只能用正常速度的摄像机

说完了视觉助理,我们现在来说说本届世界杯的另一个新趋势:数据驱动。

电子体能跟踪器

电子体能跟踪器,又叫 EPTS(Electronic Performance and Tracking Systems)。它能跟踪每名球员的位置、足球的位置,还能和加速度计、心跳监控器等微机电设备一起,尽可能全方位地收集每位球员的体能信息。收集到的信息通过专门的渠道和设备,发给每支球队的技术人员和队医,用以做决策。

这个跟踪器放在什么位置比较好呢?有三种选择,各有利弊:

装在球场高处| 好处是能纵观全局、不会影响球员,而且收集的数据很全面;坏处是有时容易被遮挡物挡住视线,而且组装时间略长;

装在紧邻球场的周围| 比如装在球门附近、球场边沿的白线附近。这种方法收集的数据更全面、更精确,但缺陷是它位置固定,比较死板。

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

图自 FIFA 官网

装在球员身上| 或者也可以把 GPS 芯片装附着在球衣上。这么做的好处是安装时间短、而且不像前两种需要专人操作,很方便,GPS 芯片把收集到的数据发到卫星上即可。坏处是比赛时其可能对球员产生干扰。

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

收集这些数据,主要是为了分析球员的表现和体能。有了这两个数据,教练和队医在做 “要不要改变阵型” 或 “要不要把谁换下来、让替补队员上” 之类的重要决定时就不用靠猜的了。不仅如此,电子体能追踪器还能提高效率、减少球员因体力不支而可能产生的伤病。

虽然美国国家队今年没有资格参加本次比赛,但美国足球联合会已经着手为 2022 年卡塔尔世界杯做准备了(巧了!我们中国男足也在为 2022 年卡塔尔世界杯做准备)。

美国足球最近与 GPS 跟踪设备公司 STATSports 签署了价值 15 亿美元的协议,以监测其 400 万注册足球运动员。从青年联赛到国家队,这些球员将用 APEX 运动监控设备,这个设备能追踪一名球员的各种数据:跑步距离、速度、加速度、减速度、负荷和心率等等。

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

梅西身穿 STATSports 设备

美国能在训练时用这些设备,但不知道这对那些在贫困地区尘土飞扬的小路上踢着矿泉水瓶、怀着足球梦的小孩来说,却未必是个好消息。先进设备固然能大大提升一支球队的表现,但它有可能也让那些来自经济欠发达地区的球队更不容易出头。毕竟不论更先进的 VR 技术、还是强大的数据分析,都需要经济和技术实力做支撑。

通过收集、分析某位球员的数据,我们能对其体能、技巧等有更细节的了解。但要说起对数据的应用,比起只有教练、专业人士才关心的技术分析,更能挑动人神经的恐怕是预测比赛结果。

机器学习预测的比赛结果,能比章鱼准吗?

一直以来为了预测比赛结果,我们可没少费心思。从 14 场比赛正确预测 12 场的章鱼保罗:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

到指谁谁害怕的贝利 “乌鸦嘴”:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

但说到底,这些所谓 “预测” 几乎就是猜。在机器学习技术迅速发展的今天,用机器学习预测世界杯结果会不会更准确些呢?

《麻省理工科技评论》报道,如果我们用最近几年研发的机器学习技术预测世界杯结果,就很有可能比主要靠猜的传统预测更准确!

科学家们用来预测本届世界杯比赛结果的方法叫 “随机森林方法”(Random Forest approach)。就像树从主干到最末端的小树枝一遍一遍地一分二一样,如果说最终的比赛结果是树最顶端的一颗小树枝,那么树木的每次分叉就对应着一个关键节点(比赛谁输谁赢),而通过参考一组训练数据,机器学习能估计每个分支的潜在发生概率,以 “预测” 出本届世界杯最终获胜的球队。

大多数 “决策树” 在后期都会因为不可靠因素过多而影响决策模拟结果的准确性,这些决策由于不一致和分散的训练数据(training data)而失真,这种现象叫做 “过度拟合”(overfitting)。而 “随机森林方法” 则通过多次计算随机分支的结果来尽量让结果准确。“随机森林方法” 取多次随机决策树的平均值,以此绕过 “过度拟合”。

在这个研究 “到底谁能获胜” 的模型里,有些考量的因素是我们能想到的,比如该球队在国际足联排名、球员平均年龄、球队里有多少名球员在冠军联赛踢球等因素

除了这些明显对预测结果有帮助的因素,这个模型还包含了一些看似无关紧要的因素,比如国家人口、国内生产总值、甚至包括执教教练的国籍

该团队模拟了足足 10 万次足球比赛,并根据 2002 年到 2014 年之前所有比赛的成绩(数据可以说是很充分了),使用了三种不同的建模方法。

用这种方式预测出来的本届世界杯冠军是...

西班牙!

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

根据预测结果,西班牙夺冠的概率是 17.8%。如果说这个概率还不是很 “自信” 的话,这个预测说西班牙能冲进四强的概率则高出不少,足足有 73%!可以说是相当有信心了。

而这个研究对卫冕冠军德国队的预测是:

“能不能闯出小组赛难说,但如果小组赛没被淘汰,德国队进四强的几率高达 58%。”

这让小探想起一周前墨西哥 1-0 击败德国时,不论中外媒体几乎都用了 “爆冷” 这个词,这个结果倒是在一定程度上证明了这项研究有一定的准确性。

好在今天凌晨在德国队 - 瑞典的比赛中,德国战车终于发威 2-1 击败瑞典!这才是德国战车的精神!!!德国球迷的心情终于也阴转晴。

输给墨西哥的德国:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

赢了瑞典:

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

不过按照这种方法计算,中国男足来自一个人口众多的国家(加分)、中国 GDP 也全球第二(加分),但连世界杯的门儿都摸不到... 难道这种模型不适用于中国男足?

当然,或许是中国男足的世界排名太低了,拉了这项预测的后腿。中国男足全球排名低到什么程度了呢?这么说吧,下次你再抱怨网速太慢的时候请牢牢记住,我们的网速世界排名都比国足要高

话说回来,如果机器学习的预测方法在此次世界杯上被证明很准确的话,恐怕会对球行业产生重大影响。小探奉劝大家一句:享受比赛、爱惜钱包、谨慎球...

说了这么多,本届世界杯你最看好哪支球队夺冠?欢迎留言讨论!

世界杯球队增加到48支建模(大数据预测的世界杯冠军是这支球队!你信么?)

阿根廷:你们聊你们的,别管我...

本文参考:

hackernoon/world-cup-2018-whats-tech-got-to-do-with-it-55c3090fa266

interestingengineering/scientists-predict-world-cup-2018-winner-using-machine-learning