Beat the dealer
data-driven bet
NBA比赛的预测、或其他预测,最主要的核心就是数据驱动。目前很火的大数据、机器学习、其核心概念我们认为就是数据驱动,在未来几个单元,会通过介绍目前我们的预测NBA比赛的几个重要点,介绍这种数据驱动的方法。 希望篮彩爱好者或者其他读者在对数据驱动的这一思维方式略窥一斑。 我们同时也会适当介绍一下在这一过程中使用的工具。
系列一:NBA 2013/14赛季常规赛,预估球员出场名单错误分析
出场名单重要性
任何的情况下对NBA比赛进行预测,临场最基础的依据就是球队出场名单,本文所说的出场名单概念为某场比赛双方上场球员,以及可能的上场时间。
NBA比赛双方同时在场人数共有10人,除去加时赛,相当于整场比赛相当于有48*10分钟 分配给2队的主力和替补,如何预估480分钟的分配,对最终预测比赛结果起到决定性作用。
大家在投注篮彩作为娱乐的时候,现在或有自行的预测方法、或者就是纯粹凭感觉瞎蒙,也会参考一下伤病情况等,但都缺少记录和量化的过程。如果能够首先从预估球员出场名单做起,使用正确的方法,不仅能够提交收益,同时还能提高对球队的了解,增强参与篮彩的娱乐性。
我们预估名单的一些准备,和现有的优势
1. 首先需要有多个信息资讯源,可以参考ESPN、CBS等伤病情况,为了未来提高预估的效果,我们目前收集多个数据源,并且按时间轴保存整个信息流(如下图,是我们在总决赛G1某段时间采集的新闻信息)
我们目前抓取伤病、新闻等信息后,集中到splunk
进行初步的监控和可视化,splunk
作为运维智能平台,对时间轴的信息流展现、处理非常方便,结合自定义的插件数据清理后进入预估算法,得到最终展现给领域专家参考的结论(此处为了最终展现的更加丰富,我们采用tableau
展现经过data analyze
的数据,以及经过机器预估算法的结果辅助判断),便于其快速了解掌握当时NBA伤病、其他新闻信息。领域专家们也可以通过splunk
强大的搜索分析功能自主查询原始数据。
领域专家在此过程饿过中非常重要,其需要了解2种工具终端用户的使用方法,以及最最最重要的NBA相关领域知识。培养或者造就此类领域专家,据我们观察需要几千场比赛,几个赛季的长期积累,以及背后技术的辅助。此类领域专家还需要有数据建模的能力参与判定、改进预估算法。
作为篮彩爱好者应该也做到尽量收集整理信息,长期观察改进自己的判断。上面介绍的splunk
和tableau
均有free 或者public版本,虽然有诸多限制,当对于个人的数据分析展现已经足够,如果还觉得烦,可以使用excel
或者numbers
等记录展现。
我们也会考虑在适当时候逐步开放采集的原始数据和经过处理的数据。
当一段赛程结束、或者整个赛季结束,因为我们按照整个时间轴保存了信息流,便于在重新调整预估方法的时候回顾当时做出判断的信息上下文。此部分数据对整个预估算法的调整非常重要。
2. 其次,需要对不同伤病有一个大体的了解,包括伤病影响程度,伤病的恢复时间等,此部分话题会在以后结合NBA的历史伤病数据专门介绍下。
3. 同时需要对球队的轮换有认识,此部分需要结合每场比赛球队出场名单,长期的观察。
4. 最后需要每场比赛预估的出场名单都需要保存,其中包括预估的出场时间,标出错选的,错选应该分为漏选(球员实际上场,预估其未上场)和多选(球员实际未上场,预估其上场),长期观察、量化错误,改进预估的方法。
NBA13/14赛季常规赛预估错误分析
整个分析可交互的展示可以查看link