By NBASTAT.com(NBAPrediction,河马体育)
Beat the dealer
data-driven bet
NBA比赛的预测、或其他预测,最主要的核心就是数据驱动。目前很火的大数据、机器学习、其核心概念我们认为就是数据驱动,在未来几个单元,会通过介绍目前我们的预测NBA比赛的几个重要点,介绍这种数据驱动的方法。 希望篮彩爱好者或者其他读者在对数据驱动的这一思维方式略窥一斑。 我们同时也会适当介绍一下在这一过程中使用的工具。
系列二:球员能力衡量与分析
引言
NBA球员的统计数据有很多,例如得分、篮板、助攻、抢断等等。这些数据中,有些衡量一个球员的进攻能力,如得分;有些则是衡量一个球员的防守能力,如抢断。那么我们应当如何通过这些五花八门的统计数据来衡量一个球员的能力呢? 归根结底,一个球员的能力需要通过他如何帮助球队得分,或者阻止对方球队得分来体现的,因此,我们的分析思路可以是:我们可以对比某个球员在场上与不在场上的时,计算球队的得分的差异来衡量这个球员的进攻能力,计算球队的失分的差异来衡量这个球员的防守。
本章所用到的工具
R语言:用以统计分析,ggplot包等
Mou:markdown编辑器
衡量一个球员能力
首先我们抓取了每场比赛中不同场上球员配置,即一组特定的球员出现在场上时,球队的得分与失分情况。
有了这些数据,我们可以通过如下回归模型,计算这些球员在场上的能力:
M = b0 + b1X1 + b2X2 + . . . + bkXk, where
M = 100 * (home team points per possession – away team points per possession)
其中Xk为1时,表示球员k在主场,Xk为-1时,表示球员k在客场,Xk为0时,表示球员k不在场上。bk则表示该球员在场与不在场时,球队的得分与失分的差异,即能力值。
通过计算上面的回归模型,我们可以得到一个球员的能力值,然而这样计算出来的能力值,会有很大的噪音等问题,因此我们需要将此数据与得分、篮板等统计数据结合起来计算,这样才能计算出比较稳定的能力值。
同样,按照上面回归分析的思路,我们将球员得分、篮板等数据,与第一个回归模型计算得出的能力值,建立第二个回归模型:
C = b0 + b1PT + b2AST + …
其中,C为第一个回归模型计算出来的能力值,PT、AST等则表示球员的数据。
通过上面2个模型的计算,我们便得到了球员的能力值。
下面是2013~2014赛季,各个球员的能力值:
Rank Player Value
- 1 LeBron James 8.77
- 2 Kevin Durant 8.62
- 3 Chris Paul 8.00
- 4 Russell Westbrook 7.09
- 5 Stephen Curry 6.14
- 6 Kevin Love 5.58
- 7 DeMarcus Cousins 5.33
- 8 Anthony Davis 5.11
- 9 Carmelo Anthony 4.91
- 10 Blake Griffin 4.83
- 11 James Harden 4.80
- 12 Dirk Nowitzki 4.40
- 13 Andre Drummond 4.19
- 14 DeAndre Jordan 4.14
15 Kyle Lowry 4.07
我们从表中可以看出,勒布朗詹姆斯的能力值在全联盟中排名最高,凯文杜兰特紧随其后,克里斯保罗排在第三。
联盟中球员能力分布
接下来,我们再来看看联盟中,整体球员的能力分布情况,其中我们选取了上场时间与参加场数高于一定标准的球员,一共是267名球员。
图中钢青色的线表示联盟中球员能力,红色的线表示这些球员的平均能力值。
联盟中球员能力分布的趋势还是非常明显的:球员能力分布先是迅速下降,即红色区域,而后在图中的绿色区域中逐渐趋缓,最后在尾部,即黄色区域再一次迅速下降。
红色区域,集中了联盟中能力值比较强的球员,如勒布朗詹姆斯等球员,也就是我们常称为的“全明星”球员,这些球员能力与其他球员,即绿色和黄色区域中的球员相比,其能力值有着一定的优势,因此,全明星球员往往对球队起着非常重要的作用。
绿色区域中大多集中了一个球队中的 “工兵型”球员,这些球员的能力差异相对较小其能力大多在平均水平左右,而一个球队,这类球员也占了多数,并且,对于这类球员的替换,对于一个球队来说,其影响是较小的。
黄色区域主要是一些新球员或者边缘球员,其能力在联盟中处于相对偏后的位置,这类球员的上场时间等也较短。
球员在每场比赛体现出的能力
虽然我们前面计算出了一个球员在一个赛季中的总体能力,但是随着球员的竞技状态,场地因素等,其在每场比赛所体现出来能力也略有差异,因此,随着比赛不断的推进,我们也必须不断进行调整,才能更好地来计算一个球员的能力。
我们通过加权平均的方式,来计算一个球员在一场比赛中的能力。
我们以勒布朗詹姆斯为例,如下图:
图中钢青色表示计算出的能力值,红色表示赛季平均的能力值。
从上图中,我们不难看出,赛季初期,勒布朗的能力值并不是很高,随着赛季不断的推进,其体现出来的能力也不断升高,因此,我们应当要不断的进行调整,才能更准确地来计算其能力值,只用平均赛季的能力值则会显得较为片面了。