足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)


足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

国际足联将本赛季的夏季转会期延续到10月5日,可截止目前大多数欧洲豪门仍然没有太大的消息,虽然这是受今年全球疫情影响,但是在所有普通球迷心中,每个夏季的焦点永远都是球队的引援动态。为此,我们不妨采用因子与聚类分析相结合的方法对豪门俱乐部的有意球员进行排序和分类,分析结果显示各个球员差异明显,试图寻找各个球队最适合引援的球员。

欧冠作为世界足球最高水平的比赛,基本可以明显代表各个球员的能力与类型。因此,本文根据《转会市场》等欧洲权威足球网站数据,对豪门意向球员在欧战赛场及各自联赛的数据进行采集,结合对各队的综合数据分析,找到符合各队水平和特征球员。

特别强调:

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

通过数据进行因子与聚类分析,找出各个球员的特征,确实便于更好的定位球员在球队中的位置,找到可以提高球队竞争力的球员。但是,数据建模只有有限的参考价值,因为球员的个人因素如:球员国籍,球员丑闻,球员个人目标定位(或期望值),球员伤病史及严重程度等等,这些都是没有参考数据的。但是,这些不可控因素,都会让球员的转会结果出现很大偏差,这也是建模最难的地方。虽然有参考价值,但是仍然会有很大的误差空间。因此,统计的结果会有相对宽泛的误差空间。

所以,本文以纯能力和综合数据为核心考量,球员转会身价及年薪这些成本因素不作年化成本计算,大家可以从自己的主观角度根据转会新闻对此进行判断。同样,本文也不会对球员及所处球队的竞训水平进行计算和参考,因为即便天赋再高的球员,长期和不在同一水平的球员一起训练,也会导致与期望值有巨大偏差。

这样的例子有很多,90年代西班牙最初被誉为“金童”的球员并非劳尔,而是毕尔巴鄂以忠诚著称的格雷罗,但是坚决不离队最终的结果也使他无法更上一层楼,最终沦为众人。同样,当初被众多豪门抢购的特谢拉,初登中超的第一个赛季几乎是带着球队和恒大争冠的水平,最后也逐渐沦为普通中超球星。诸如此类还有很多,这些都属于题外话。

下面,本文开始言归正传,不喜勿喷。

球员评价模型

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

1、指标体系的建立于数据来源

球场上反映球员素质的因素繁多且复杂,对其进行研究时,首先要构建其指标体系,建立其指标体系应遵守完备性,综合性,科学性,简洁性,动态性和可操作性原则。本文采用综合评价指标对拜仁转会市场的9名有意向球员中8名(不包含佩里西奇)、还有转会市场上球迷们普遍关注的14名球员们的素质进行分析,依据whoscored等七家权威网站的数据,选取了12个具体指标的球员素质评价体系,这些指标包括:X1(身高),X2(出场时间),X3(总进球),X4(黄牌),X5(助攻),X6(射门),X7(传球),X8(传中),X9(抢断),X10(越位),X11(犯规),X12(被侵犯),X13(关键传球),X14(解围)。

2、球员素质评价集成模型

因子分析是通过对原始数据相关系数内部结构的研究,将多个指标转化为少量互相不相关且不可观测的随机变量(即因子),以提取原有指标的绝大部分的信息的统计方法。因子分析首先将原始数据标准化处理,建立相关系数矩阵并计算其特征值和特征向量,接着从中选择特征值大于等于1的特征值个数为公共因子数,或者根据特征值累计贡献率大于80%来确定公共因子,求得正交或斜交因子载荷矩阵,最后计算公因子得分和综合得分。

聚类分析是统计学所研究的“物以类聚”问题的一种方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。根据分类对象的不同,聚类分析分为R型和Q型两种.R型聚类分析用于指标聚类,Q型聚类分析中度量数据之间的亲疏程度没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类.类与类之间的亲疏程度度量方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法等。

本文首先采用因子分析对19个球员的素质进行分析,可以获得19个球员素质各因子和综合因子得分与排名。尽管从因子分析结果可以反映19名球员的素质排名的先后顺序,但未能对其进行层次划分。因此,本文通过Q型聚类进行分析进一步得到层次分类,在因子分析和聚类分析的基础上,集成分析出球员素质结果。

因子分析过程

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

下面,我们以拜仁为例,结合拜仁本赛的综合数据,参考的球员对象分别为拜仁《转会市场》绯闻对象:阿伦-希基、贝莱林、布罗佐维奇、卡马文加、扎哈、乔尔吉尼奥·鲁特、德斯特、阿隆斯(特别提醒:拜仁已经宣布不会买断佩里西奇),加上今夏深陷转会市场已转会或仍未转会的参考球员:哈弗茨、范德贝克、托纳利、德佩、苏亚雷斯、维纳尔杜姆、乌帕梅卡诺、凯塔、希克、格鲁伊奇、马拉约尔、希克。参考对象不只局限于拜仁目标引进的边锋、中场、右边后卫,无传闻和已转会对象仅因数据提取作为参考。

本文使用的是spss软件作为统计分析软件工具,调用spss中因子分析程序对14个指标的原始数据进行标准化处理,并得到各指标之间的相关系数矩阵R(表1:相关性矩阵)。

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

(相关性矩阵)

通过结合球队数据处理,得到相关系数矩阵P值均<0.05,表明指标间存在较强相关性,可用因子分析进行精简,KMO值为0.686,Bartlett球形检验显著水平<0.0001,表明样本个数充足,相关系数矩阵非单位阵,故可以实施因子分析,指标共同度表明,所有指标共同度均值>0.8,即表明公共因子的可解释性强,因子分析球员素质的数据适用性较好,累计贡献率如表2(因子贡献率),可见主成分得到的前4个因子为综合因子,提取了77.261%球员数据信息,因此提取前4个主因子。

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

(因子贡献率)

公共因子与原有变量指标之间的关联程度由因子载荷值体现,由于初始因子载荷矩阵结构不够简明,各个因子的含义不突出。为此采用方差最大法,使各个变量在某个因子上产生较高的载荷,而在其余因子上载荷较小。经过6次综合拜仁本赛季综合数据迭代收敛,得到旋转后因子载荷矩阵,如表3(旋转前后因子载荷矩阵)。

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

(旋转前后因子载荷矩阵)

表3中第一个公共因子F1在X5(助攻),X8(传中),X12(被侵犯),X13(关键传球)这4个变量上的载荷值都比较大,上述指标是进攻型中场球员的核心指标,表示球员在进攻中的辅助水平,将其命名为进攻辅助因子。第一个公共因子对全部初始变量的方差贡献率为34.055%,是符合拜仁战术进攻效果的重点考虑方面。

第二个公共因子F2在X3(总进球),X6(射门),X10(越位)这3个变量上的载荷值比较大,上述指标是前锋球员的核心指标,表示球员在进攻中的能力,将其命名为进攻因子。第二个公共因子对全部初始变量的方差贡献率25.158%,是符合弗里克对球员位置安排方面的重点考虑。

第三个公共因子F3在X2(出场时间),X7(传球),X9(抢断),X14(解围)这4个变量上的载荷值比较大,上述指标是防守球员的核心指标,表示球员的拦截和防守能力,将其命名为防守拦截因子。第三个公共因子对全部开始变量的方差贡献率为10.689%,为次重点考虑方面,主要原因是拜仁的高位逼抢战术几乎平均于每个位置。

第四个公共因子F4在X1(身高),X4(黄牌),X11(犯规)这3个变量的载荷值比较大,上述指标为球员身体与比赛风格的核心指标。表示球员在比赛中的踢球习惯与风格,将其命名为风格因子。第四个公共因子对全部开始变量的方差贡献率为7.359%,为最后考虑方面。毕竟,拜仁不是弱队,战术犯规在弗里克接手后绝大多数时间内几乎无用。

通过因子分析,将14个指标变量降维成4个公共因子,如表4(因子命名结果)所示:

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

(因子命名结果)

根据因子载荷矩阵写出F1,F2,F3的因子得分表达式为:

F1=-0.678X1 0.266X2 0.134X3-0.406X4 0.735X5 0.477X6 0.417X7 0.878X8-0.199X9 0,.025X10-0.150X11 0.562X12 0.900X13-0.587X14;

F2=-0.048X1-0.001X2 0.921X3-0.359X4 0.322X5 0.760X6-0.351X7 0.029X8-0.365X9 0.843X10 0.181X11-0.095X12 0.246X13-0.227X14;

F3=0.088X1 0.928X2-0.188X3-0.062X4 0.166X5-0.096X6 0.730X7 0.120X8 0.734X

9-0.286X10 0.017X11 0.357X12 0.143X13 0.554X14;

F4=0.208X1-0.017X2-0.062X3 0.627X4-0.085X5-0.035X6-0.034X7-0.054X8 0.112X9

0.093X10 0.856X11 0.538X12-0.082X13 0.083X14;

最后由各个因子方差贡献率占4个因子方差贡献率的比重作为权重进行加权汇总,得到各个球员的综合得分F,即:

F=(28.275×F1 19.861×F2 18.344×F3 10.781×F4)/77.261

因子分析结论

代入各式子,得到各个球员的综合评价的指标F的得分,以这个综合得分大小排序,就可以得到球员适合拜仁的素质排名,如表5(素质因子得分,排名结果):

足球大数据分析工具(数说足球:以拜仁为例 通过大数据模型分析引援契合度)

(素质因子得分,排名结果)

根据各个球员的因子得分,排名结果得出以下结论:

上表中4个公共因子得分和因子综合得分越大,说明球员的助攻能力,得分能力,防守能力和风格优势越高,综合竞争越强。从综合得分看来,哈弗茨、范德贝克、布罗佐维奇、乌帕梅卡诺这4名球员在平均水平之上,其他在平均水平之下。结合拜仁现有阵型配置考虑,范德贝克应该是最适合拜仁引援对象。(注:本文不进行聚类分析)

通过指标特征,利用matlab软件在因子分析的基础上选择标准欧氏距离(内平均法)作分析。拜仁三个位置分类的引援顺序分别是:中场:布罗佐维奇,托纳利,维纳尔杜姆,凯塔,格鲁伊奇;边后卫:德斯特,阿隆斯,贝莱林;边锋:德佩,扎哈,卡马文加,马拉约尔。两位在拜仁《转会市场》列表上的无名小将希基和乔-鲁特没有一线队引进价值。而通过因子分析结果,将球员分为 3 个层次。第一个层次的四名球员因子得分在 1.15289——0.22118;第二个层次的因子得分在 1.04285——0.01186;第三个层次的因子得分在-0.20559—— -0.90669。通过因子分析结果可知,各个球员的素质是拜仁发展的重要指标,上述排名结果表明,助攻型中场球员对拜仁贡献作用明显。

当然,我们也必须指出,球员对应球队所形成的数据结果,绝不可以一概而论的转化到其他球队。笔者非数据统计专业人士,有所纰漏也是在所难免。同样,相信还记得十年前贝尼特斯在利物浦排首发故事的球迷,都知道全靠大数据是不可信的。但从仅供参考的角度,作为普通球迷的我们,可以列入自己“钟意对象”进行计算,也是可以适用于任何人主队的。在国际足坛,这也是很多球队助教帮助主教练考察球员的参考方式之一。

题外话:无论如何,拜仁至少应该满足弗里克基本的引援要求。