今年你想要谁打败克洛普?——EA体育数据分析

2024-03-23 15:30:44

EA 的Fifa数据集代表了球员特征,而TDA(拓扑数据分析)是模拟每场比赛结果概率的基础。 通过模拟这些概率,可以得出最有可能的英超联赛最终排名。

今年你希望谁击败克洛普?

足球比赛预测吧_预测足球比赛_足球预测比赛胜负

图片来源:

该模型允许您建立自己的团队并衡量您的团队在年底的排行榜上的位置。 您可以自己使用这个模型,这里我们将提供代码,以及比赛数量、赔率、tda 特征、玩家统计数据、玩家姓名数据(原始数据)。

造型

假设1:足球比赛的胜负仅取决于场上球员的具体属性和综合属性。 大多数教练不会同意这个假设,因为我们忽略了诸如团队精神、天气、每周疲劳、伤病、黄/红牌、换人、战术、球员的个人承诺、赛季长度、球迷的特殊承诺等等等因素。可能影响比赛结果的外部因素。

足球预测比赛胜负_足球比赛预测吧_预测足球比赛

前沃特福德主教练沃尔特·马扎里 ( ) 在 2014 年国际足联会议上说过一句名言:“我们踢得很好,但天开始下雨了。” (来源:)

话虽如此,您可能已经明白第一个不可否认的事实:

上面的模型显然是错误的(任何模型都是......)。

无论您是球员、教练、球迷、管家、替补还是园丁,您都知道在预测比赛结果时,需要考虑的信息远远多于可以记录的信息。 看台上的疯狂尖叫、裁判的错误哨声或午餐菜单上的虾都会影响比赛的整体结果。 一些受人尊敬的科学家声称,足球只是一项随机事件,预测结果就像证明费马大定理(该定理有 129 页的数学证明)一样困难。

足球预测比赛胜负_足球比赛预测吧_预测足球比赛

Wiles教授于1994年证明了费马大定理。358年后,我们终于有证据证明“当n大于2时,方程x^n + y^n =z^n没有整数解,除非xyz=0 ”。 那么有人能够找到一种方法来预测足球比赛的结果吗? (来源:)

我们知道没有任何预测模型可以准确预测足球比赛结果,因此我们想看看拓扑数据分析的不可知论方法是否可以识别一支球队的一小部分七个聚合属性中的相关模式。

利用EA数据集赋予每个玩家的24个属性来设计攻击和防御特性。 初始属性相关矩阵给出了设计特征的方向。 为了生成整个团队的特征,根据初始匹配组合构建了以下 7 个特征:

· 守门员级别

· 球队最大进攻值

· 球队最大防守值

· 球队平均进攻

· 球队平均防守效率

· 球队进攻的标准差,以百分比表示

· 球队防守的标准差,以百分比表示

根据过去六个英超赛季的 2,591 场比赛,我们设计了一个模型来估计每场比赛结果的概率。 在 14/15 赛季测试了超过 380 场比赛并模拟了最终排名。

动机

2011年12月31日,弗格森爵士即将年满70岁,曼联在老特拉福德迎战布莱克本。 流浪者队在积分榜上垫底。 两队上一场比赛预测足球比赛,流浪者队以7-1惨败。 那天晚上,那些期待弗格森的球队再次展现实力的人却大吃一惊。 布莱克本在2-0领先的情况下,在最后10分钟打入致胜一球,以3-2结束比赛。 当晚,赌场的幸运赌客以28:1获胜。

足球比赛预测吧_足球预测比赛胜负_预测足球比赛

流浪者队未来的队长格兰特·坎贝尔-汉利在老特拉福德攻入致胜一球。 这位苏格兰后卫当时年仅20岁,于2016年离开布莱克本,出场183次,攻入8球。 (来源:)

不幸的是,老特拉福德的这个奇迹并没有使布莱克本流浪者队免于降级。 另一方面预测足球比赛,这个比分从长远来看对于曼联红魔来说是致命的。 那天晚上错失的机会导致了令人难以置信的平局。 曼城和曼联均以89分结束赛季。 曼城凭借更大的净胜球优势夺得奖杯,给曼联留下了苦涩的回味。

非常好。 但为什么要使用拓扑呢?

虽然这个结果对于曼联来说似乎是不可预测的,但拓扑结构清楚地将这场对阵布莱克本的比赛与对阵同一类别球队的比赛区分开来。 例如,我们认为曼联对阵西布朗和曼联对阵博尔顿是在同一赛季。

首先尝试了解为什么我们的游戏如此特别(以便您可以计划下一次赌场之旅)。 你能做的第一件事就是研究游戏的空间,它是 14 维空间中的一个点(记住每个团队有 7 个特征,一场游戏有 7+7=14 个特征)。 我们使用主成分分析 (PCA) 的前两个成分来可视化围绕我们认为每个匹配的相似匹配。

足球比赛预测吧_预测足球比赛_足球预测比赛胜负

2D PCA:曼联 vs 西布朗 3-0,曼联 vs 博尔顿 2-0,曼联 vs 布莱克本 2-3

PCA看不到的东西可以用TDA看到

这三张图可以预测描述两场比赛的 14 个特征,而这种预测会丢失信息。 使用 TDA 从原始空间恢复和可视化结构。 使用的工具是持久性图(可以在以下位置找到!)。 持久性图是数据集在点连接性方面的表示,通过逐步连接相邻点并测量构造的同源性获得。 这是一种理解、可视化和从数据中提取特征的新方法。 如果您想了解更多有关 TDA 的信息,我建议您阅读这篇文章。

足球比赛预测吧_足球预测比赛胜负_预测足球比赛

耐久度表:曼联 vs 西布朗 3-0、曼联 vs 博尔顿 2-0、曼联 vs 布莱克本 2-3

这三个持久性图是在与 PCA 相同的点计算的。 图中的点不再指游戏,而是描述原始空间中点之间的关系。 在此示例中,它描述了三个匹配项周围的点云的形状。

持久性图显示局部和全局结构

从前两张图可以看出,所有连通分量(用橙色点表示)都集中在y轴的[5, 10]区间内。 此外,循环(用绿点表示)集中在框 [6, 8]x[6, 8] 中,它们到 y=x 的最大距离为 1。

在上图中,橙色点更加分散,极值点 (0, 17) 代表后期连接到数据集其余部分的组件。 最重要的是,绿点在 y=x 线上分布得更广泛,并且总体上更接近该线。

第三张图的结构表明存在异常值。 事实上,橙色点(0, 17)代表了曼联-布莱克本和其他比赛之间的衔接。 这意味着匹配距离比 PCA 图中显示的距离更远。

足球比赛预测吧_预测足球比赛_足球预测比赛胜负

持久性图很棒,但它们不能直接输入到预测模型中。 需要知道如何将持久性图转换为模型的特征。

使用幅度函数来综合图表中的信息。

有关如何从持久性图中提取特征的更详细说明包含在共享中。

结果

单场比赛的模型已经过训练:我们现在准备对整个赛季进行一些模拟。 可以选择一个阵容,看看他们本赛季能走多远。 为了测试这个模型,我们研究了梅西转会到每支英超球队的影响。

毫无疑问,雇用梅西总是好的。

足球预测比赛胜负_足球比赛预测吧_预测足球比赛

对于一支拥有梅西的球队来说预测足球比赛,降级的机会平均减少12%,获奖的机会平均增加4%,进入前4的机会增加14%。 最需要梅西的球队是女王公园巡游者队。 有了梅西,球队的排名将上升11位。 莱斯特城最初以72%的模拟率排名第14位,将在梅西的加盟下获得欧冠资格。

以下是第 14-15 赛季的原始排名以及模拟概率:

· 夺得冠军,

·进入前4名

· 降职

每一支有梅西和没有梅西的球队。

预测足球比赛_足球比赛预测吧_足球预测比赛胜负

英超联赛 14-15 赛季排名,包括有梅西和没有梅西的模拟概率

模型评测排行榜模拟的好坏直接体现了模型预测比赛结果的准确性。 对持久性图中的 14 个特征使用随机森林分类器,并根据一些基线预测策略测试模型框架:

1)预测主队总是获胜(基线)

2) 根据团队表现计算Elo评级

3)通过投注赔率给出的市场预测

预测足球比赛_足球比赛预测吧_足球预测比赛胜负

2014-15赛季预测策略的准确性

上表显示了测试集上每种策略的准确性。 让我们比较一下基于混淆矩阵的预测。

预测足球比赛_足球比赛预测吧_足球预测比赛胜负

不同预测策略的混淆矩阵

结果证实:足球比赛是随机的。 即使是博彩公司的赔率也只有 53% 的正确率。

结果与投注赔率给出的结果相当,具有惊人的相关性。 这很有趣,因为该模型依赖于简单的数据。 我们的模型具有非同寻常的预测绘图的能力(占总结果的 27%)。

该模型可以很好地推广到其他年份和其他锦标赛的数据。 在没有“看过”意大利比赛的情况下,同一模型在预测 2015/2016 赛季意甲比赛时的准确率达到 52%。 对于 Elo 评级等特定于团队的策略来说,这是不可能的。

也许这个模型的最佳属性是它在构建和测试团队方面的灵活性。 我们不仅可以混合球队并模拟锦标赛,而且还可以做出明智的转会决策。 在固定预算的基础上,可以根据成本和收益来优化最佳的玩家组合。

足球比赛预测吧_足球预测比赛胜负_预测足球比赛

莱昂内尔·梅西自2011年以来一直在巴塞罗那踢球,也许现在是时候加入另一支球队了。 来源:新浪体育

综上所述

我们正在尝试寻找复杂三元分类问题的简单解决方案。 拓扑模型在非常有限的特征集上实现了高精度,尽管该模型灵活性较差,但与普通方法相当。 我们已经在梅西身上尝试过,现在我们想尝试罗纳尔多。 他会表现得更好吗?

足球比赛预测吧_足球预测比赛胜负_预测足球比赛

预测足球比赛_足球比赛预测吧_足球预测比赛胜负

Theme Customizer

Theme Styles