位置：首页 > 六壬预测

（机器学习）足球比赛中的数据特征，你知道吗？

引言|足球作为世界第一运动，充满了速度和力量的结果，团队与谋略的对抗。人们也说，足球是圆的，恰恰也表明了足球比赛的不可预知性，一切结果都皆有可能。强如巴萨，也有可能被联赛副班长逆转，弱如第三世界的朝鲜队也可闯进世界杯八强。天气、场地、球星、战术、伤病、裁判，每一个因素都可能会影响一场比赛的结果。有言道，在足球比赛里，不到最后一刻，你永远不知道事情的结果。对于足彩爱好者来说，不仅在欣赏足球荡气回肠、悬念丛生的魅力，更是在与博彩公司进行一场心理与策略的博弈（其实是为了投注赚钱）。彩民看基本面，算计博彩盘口、统计历史战绩，只希望在投注前猜中比赛结果。

伟大的福尔特博·普利迪特说过：球无假球，盘皆假盘，信息的不对称才是造成贫富差距的根本原因。在这大数据时代，能否在数据的帮助下，减少这种信息的不对称，从而成功地对足球比赛进行预测？本文从数据层面出发，通过挖掘足球比赛相关的数据特征，结合机器学习的模型方法，对足球比赛的胜、平、负结果进行预测。进一步根据预测结果指导足彩单场竞猜的投注，以期实现有效盈利，甚至是稳定盈利的投注方法。

在使用本文提出的投注策略下，对英超2015赛季100场比赛，投注了其中20场比赛。若均为单注投注（2元一注），投注20场比赛可盈利22.18元,盈利率达到55%！下面将以2015年的欧洲五大联赛数据为例，详细地介绍如何通过数据和简单的机器学习方法，构建一个实用有效的足彩预测系统。

足彩预测

“我们可以把宇宙现在的状态视为其过去的果以及未来的因。如果一个智者能知道某一刻所有自然运动的力和所有自然构成的物件的位置，假如他也能够对这些数据进行分析，那宇宙里最大的物体到最小的粒子的运动都会包含在一条简单公式中。对于这智者来说没有事物会是含糊的，而未来只会像过去般出现在他面前。”——法国数学家皮埃尔·西蒙·拉普拉斯

一、数据特征

那究竟如何才能做到先知先觉，事先一窥足球比赛的结果呢？对于足球比赛，是否存在一种合理有效的预测方法，进而在足球彩票投注中实现较为稳定的盈利呢？

拉普拉斯提出的拉普拉斯妖是机械决定论的典型代表，他认为只要拥有宇宙所有力的分布和物体状态，便可以通过一个牛逼的AI去预测未来的所有，然而这样的论断被薛定谔的那只猫给否定了。拉普拉斯妖虽然有其自身的局限性，但在宏观动力学中原则上仍是适用的。就像布拉德·皮特主演的电影《》讲述的真实故事，一支屌丝球会通过数据分析，挖掘出合适的球员（机器学习）足球比赛中的数据特征，你知道吗？，最终组合成一支总薪金低却能与豪门洋基竞争冠军的球队。影响一场足球比赛结果的因素千千万，不管是普通球迷还是职业足球评论家都可以提出一系列的影响因子，球队排名、历史战绩、攻防数据、近期表现、主场优势、红牌裁判等等。

现有业界的足球比赛预测方法众多，下面简要介绍下常见的几种方法：

1.基于进球数预测方法。基于进球数预测的方法[1]把比赛结果的预测转化为利用泊松分布模型估计对战双方的攻防能力，进而通过进球数预测比赛最终的结果。

2.基于概率回归模型。论文[2]提出由多个不同的解释变量来组成一个概率回归模型，主要考虑球队水平、近期表现、比赛重要程度、主客队位置距离等。

3.利用贝叶斯网络进行预测。主要采用与比赛相关的主观和客观数据对贝叶斯网络的进行训练建模，进而对比赛结果进行预测。

参考多篇关于的论文，其预测比赛利用的数据主要分为两方面，一是球队基本面信息，二是公开的赔率盘口。这里的足彩预测实现主要也是考虑了这两方面的数据。

球队基本面信息由比赛双方球队在球队实力、赛前状态、对战历史、场地效应、攻防能力这五个方面组成。我们把这主队客队在这五个方面的能力量化为17维的连续特征。

球队基本面信息很容易理解，而赔率盘口与足球比赛的结果有什么具体的联系呢？赔率的基本条件是概率，但又不仅仅是概率。简单来说，博彩公司对某场比赛进行一系列科学的分析和判断后，得出胜、平、负三种结果，赢面大的一方，相应的赔率自然就低，赢面小的一方，其赔率就相对的高。概率的高低并非对应最终的结果，但一旦形成市场行为，博彩公司便将概率转化为赔率去销售。公开的赔率数据为了切合市场预期和体现它的存在价值，势必要或多或少与实际比赛概率产生联系，从而去迎合大众投注心理，而最终形成的赔率则是包含着庄家市场预期值、比赛信息以及结果概率的综合体。

可以看到，博彩公司公开的赔率本身蕴含了比赛相关的信息，但掺杂了庄家的市场期望和闲家的投注倾向，附着了许多商业利益。赔率从最初开出到比赛开始都有可能发生变化，当博彩公司获得更多的信息时，会依据球队动态和投注倾向做出一定的调整。有经验的彩民常常通过观察不同博彩公司的初始赔率以及赔率的变化来决定自己的投注。不同的比赛赔率不尽相同，赔率从初赔到终赔变化多样，而我们希望通过机器学习的方法让模型代替人去理解这其中的含义，进而预测足球比赛的结果。

二、数据的准备

这里以欧洲五大联赛的预测为示例，下面我们针对欧洲五大联赛进行数据折挖掘和准备。

针对杯赛，如欧洲杯、美洲杯、世界杯等的预测方法类似，但面临的数据问题有些许的不同，该问题将在本节最后部分做简单的讨论。

需要的数据主要有：

1.比赛的主要信息：联赛、主队、客队、比分

2.赔率信息：各博彩公司对比赛给出的欧洲赔率（胜、平、负）

通过抓取，现已获得从2010年至2015年欧洲五大联赛比赛的信息，以及17家主流博彩公司公开的赔率信息。各个联赛具体数据情况如下：

球队基本面信息特征可以通过对历史联赛积分排名以及球队参赛信息统计得到，共17维球队特征。对于赔率而言，由于每家博彩公司在开赛前给出的最终赔率并没有统一的时间标准，故现版本只采用各主流博彩公司公开的初次胜、平、负赔率，17家博彩公司共51维赔率特征。

三、预测模型

现有比赛数据从2010年7月27日开始累积，其中包含了五个完整的赛季以及2015年的赛季数据。以英超联赛为例，我们从前五个赛季中各随机选择55场比赛以及最新赛季的90场比赛，共365场组成测试集合，其余数据作为训练集合。比赛数据中存在一些强弱对抗且爆冷的比赛，我们认为这样的数据为奇异的样本在训练过程中进行了剔除，得到1339场的训练集合。

在线性LR模型下，英超联赛的测试集的预测准确率为38.18%，而在SVM模型下准确率提升为51.23%。SVM模型对比赛胜、平、负预测结果的预测的混淆矩阵如下：

根据英超联赛的预测结果来看，SVM模型的预测准确率比LR模型的预测准确率提高了13.05%，我们猜测非线性模型在足球比赛结果的预测上具有更好的表现。我们采用同样的训练集和测试集，尝试了多个不同的非线性模型。

由实验结果我们发现，除了法甲联赛，其他联赛在非线性模型，尤其是随机森林（）模型上都具有较好的效果，预测准确率达到了53%以上。但是为什么唯独法甲联赛的预测准确率相对其他联赛更低呢？

从球迷的角度来看，相比其他四大联赛法甲联赛本身竞争力较低，球员中以非洲为代表的第三世界外援比例高，比赛战术性和纪律性都较弱，比赛常常依靠明星球员的个人表现。香农理论证明了熵与信息内容的不确定程度有等价关系，也就是物体的信息熵越大，混沌程度越高，其信息的不确定性就越大。对于足球比赛来说，对战双方实力越为接近，比赛结果的偶然性则越大，想要准确地预测比赛结果也就越为困难。

球队在每场比赛中的真实实力是很难去人为衡量的，在这里我们简单地把球队的联赛积分排名作为球队实力的一个衡量标准。在联赛中，根据球队积分排名的一个波动情况衡量整个联赛的混沌程度。计算方法如下：

1.根据联赛积分排名，排名第1的球队得20分，第2名的球队得19分，以此类推，第20名的球队得1分，降级球队得0分；

2.计算每支球队在近10个联赛赛季的排名方差；

3.由每支球队的排名方差的平均值计算得到联赛的混沌程度得分。

联赛混沌程度得分

由以上方法计算得到的结果可以看到，法甲的混沌程度得分远高于其他的四大联赛，和球迷在感性上的认识是一致的，这就导致了利用同样的数据信息，对法甲的预测准确率远低其它的四大联赛。

到此为止，我们在采用随机森林模型对英超联赛能取得53.42%的预测准确率，除了进一步挖掘更多的特征，还有没有方法可以进一步提高准确率呢？下面我们先来看下现有的特征在随机森林模型下对目标值的作用权重。

其中最后17维特征为球队基本面特征，其余的为赔率特征。在随机森林模型下，球队基本面特征普遍的作用权重偏低，对目标结果的影响有限，特征作用更大的主要存在于赔率特征向量中。

特征是机器学习系统的原材料，对模型最终的效果影响是最大的。如果原始数据可以通过合适的特征更好地表达出来，哪怕是简单的模型也可以达到更高的精度。然而特征工程是一个枯燥而费力的工作，同时要求需要有大量的经验和专业知识。对于足球比赛而言，普通球迷与专业足球分析师观察的点可能完全不一样。手工选择和处理特征很大程度上需要依靠专业经验，甚至是运气，同时需要耗费大量的时间。近年来大热的Deep 恰好可以解决这样的问题。Deep 的另一个名字叫做，即非监督的特征学习方法。它最为强大的地方就在于，在包含众多隐含层的神经网络中，可以利用其中的某一层的输出当作是输入数据的另一种表达形式，能够更准确地“表达”和“理解”事物的特征，从而有效地提升预测的准确性。

传统的在训练过程中采用back 的方式进行，即根据当前输出和label之间的误差，利用梯度下降法调整前面各层的参数，直至模型收敛。但在实际工程中存在明显的缺点：

1.容易收敛到局部最小值，陷入局部最优。

2.训练数据不足时，容易过拟合。