泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

加米谷学院

泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

2018年俄罗斯世界杯将于6月14日正式拉开帷幕,70亿 的目光即将聚焦在这140平米的足球场上。而随着赛事日期的日渐临近,对于本届世界杯冠军归属的预测和争论进入到了白热化的阶段,预测世界杯的冠军似乎已经成了大家一件大家津津乐道的事。2018年世界杯,大数据是否将成为下一位“预言帝”呢?

今天在此就教教大家,用大数据算出2018世界杯冠军!

工具准备:电脑 你的大脑

如何算出冠军人选呢?仅需要5步

泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

一、利用爬虫获取数据

网络爬虫又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

“球探网”等类似的网站抓取到各种足球比赛的每场比赛的比分之外,还包括犯规数、红黄牌、控球率等详细数据。这里抓取了2018年世界杯参赛的32支球队,选择了2008年及以后的数据作为预测的基础。

二、计算各球队的进攻和防守实力

数据获取到了之后,我们需要利用数据计算出每支球队的进攻和防守实力。

计算公式:

该球队的进攻实力=球队A的场均进球数 / 所有32支球队的场均进球数

该球队的防守实力=球队A的场均失球数/所有32支球队的场均失球数

按照这个算法进行计算,可以得出以下两张图:

泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

进攻实力方面,德国一马当先,紧随其后的是西班牙、巴西、英格兰和葡萄牙;防守实力方面,西班牙则位列第一,法国、伊朗、巴西和英格兰分列第二到第五位。

另外需要提醒大家注意的是,这里的进攻实力和防守实力,并不是进球数和丢球数,而且防守实力最低,表示这支球队的防守越强。

三、构建泊松模型

接下来的步骤,就是通过建立泊松分布模型来算出在一场比赛中,这只球队具体能踢进多少个球,也就是“期望值”

泊松分布模型是一个数学概念,描述的是某段时间内,某个事件的发生概率。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数等等。

计算公式:

当球队A和球队B比赛时,A进球的期望值=A的进攻实力*B的防守实力*所有32支球队的场均进球数

通过构建泊松分布模型,有了这样的概率分布分析,我们就可以算出两队进行比赛的时候,某队任意比分出现的概率了。

四、多次模拟赛程并统计结果

建立好泊松模型之后,对于任意两支球队,我们都能够预测他们的比分。

那么接下来要做的,就是根据2018年世界杯的分组结果和赛程,对每一场比赛进行模拟,并产生冠军。小编总共进行了100000次模拟,得到的结果如下:

泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

从结果上看,差点夺得欧洲杯的法国果然风头正劲,在这十万次模拟中,法国队有一万多次夺得了冠军。完成了新老交替的西班牙紧随其后,毕竟曾经创造了统治世界的王朝,永远不能低估一颗冠军的心。

但这个结果明显还不尽人意,这个结果是基于所有的比赛得分都在一样的运算中进行分析,“世界杯”、“美洲杯”、“亚洲杯”、“友谊赛”的重要性和难度明显是不一样的。因此我们还需要进一步对数据进行整理和分析。

五、数据清理与调整

在我们的数据中,各支球队跨大洲进行的比赛并不多。但是在计算各支球队的进攻实力和防守实力时,没有加以区别,这显然也是有问题的。

所以基于比赛的性质,我们需要对数据重新赋权后,可以得到以下结果:

泊松分布预测世界杯(2018年世界杯,大数据教你预测谁是世界杯冠军?)

这就是2018年世界杯的比赛成果了,我们可以看到西班牙以0.117的比分占据榜首,成为了2018年世界杯的最后赢家。西班牙、德国则成为了夺冠的重要人选。亚洲的日本、伊朗和尼日利亚也有可能成为夺冠黑马。