NFL数据党的自我修养

  美式橄榄球非常复杂,涉及的方方面面不是都能或应该量化成数据。然而由于联盟里球员、球队和比赛场数的数量庞大,时不时的我们需要用数据来给他们做比较。哪支NFL球队的跑动进攻最好?这个赛季哪个冲传手效率最高?相较于看遍全部256场比赛,数据能更加直接地解答这些问题。

  美式橄榄球当然可以从数据角度来做详细分析。不过如果你真的想做数据党,你可要注意方法。Ben Baldwin便给有志于成为数据分析师或者数据党球迷提供了10条建议。他戏称为数据党十诫。

  宣传出现偏差的地方:依照PFF的Eric Eager的研究,每年四分卫呆在口袋中的时间都相当稳定(这意味着有些四分卫的出手速度就是比其他人快),因此四分卫在很大程度上能控制了自己的被擒杀和施压率。只有防守队员在四分卫还没来得及传球时将他按倒,这才能算是擒杀,而能决定何时传球的只有四分卫本人。德鲁-布里斯(Drew Brees)向来以快速传球而著称,因而他被擒杀次数就很少。佩顿-曼宁也是这样。

  关于这个问题,杰森-里斯克(Jason Lisk)将它和十多年前棒球关于保送的讨论联系起来,这是我看到最精彩的类比了。曾几何时,棒球数据党的先锋比尔-詹姆斯(Bill James)认为,保送本身纯粹是“投手没把球投进好球带;而打者只是在投手控球失准时恰巧站在打击区而已。”当然,现实绝非如此。打者完全能靠着选球选到保送。关于四分卫和被擒杀的关系也是一样。擒杀本身与其说是和进攻锋线有关,更不如说是和四分卫的进攻选择有关。

  提高姿势水平:现在有了球员追踪的数据,ESPN借此开发出了一套新的评价传球保护能力的体系。它出去了四分卫的影响,叫做保护成功率(Pass Block Win Rate,缩写为PBWR)。PBWR仅仅衡量进攻锋线秒的冲击,之后如果四分卫还没有将球传出,即便四分卫保护网被对手冲破,那进攻锋线球员也不会被扣分。

  按照PBWR系统的评价,泰坦的进攻锋线能在全联盟排在第九。因而球队进攻的高被擒杀率应当归咎于四分卫本人。这不等于说四分卫被擒杀进攻锋线毫无责任,我们只是说擒杀并不适合衡量进攻锋线的保护作用。

  示例:“ 贾德维昂-克劳尼(Jadeveon Clowney)2019赛季只有3次擒杀,因此他冲传能力不行。”

  宣传出现偏差的地方:除开第一条中所说四分卫对擒杀数字的影响(也就是说,防守组面对容易被擒杀的四分卫,也能刷出更多的擒杀),总的来说擒杀在比赛里出现的次数并不多。因而用它来衡量球员冲传能力的好坏并不合适。只要冲传者能不断有效施压对手四分卫,那他的擒杀率自然会恢复正常。

  我们要再次引用Eager的结论,和防守球员过去的擒杀数比起来,施压数本身更能预测防守球员未来能拿到多少次擒杀。由此可见,施压数更可以衡量冲传手的冲传能力。

  提高姿势水平:和第一条引入的数据类似,ESPN也为防守组开发出了冲传成功率(Pass Rush Win Rate,缩写PRWR)这套数据。其原理和PBWR类似,只是针对对象翻了过来。2019赛季PRWR的排行里,克劳尼在冲传手里排在第7(数据更新到第14周,克劳尼在面对卡罗莱纳黑豹的比赛里因伤缺阵)。Pro Football Reference目前引入了施压数据,目前克劳尼以30次施压在联盟里排在第17。或许克劳尼的冲传能力在联盟里算不上顶尖,但是我们不能光看3次擒杀就否定克劳尼这个赛季的表现。

  示例:“阿隆-罗杰斯(Aaron Rodgers)本赛季的达阵抄截比为24-2,领先全联盟。因而他依旧是本赛季最好的四分卫之一。”

  宣传出现偏差的地方:首先,四分卫传球中,涉及到达阵和抄截的比例最多只有10%。达阵抄截比完全无法反映剩下传球的情况。四分卫传球制造新四档进攻的比例有多少?有多少次擒杀需要他负责?他的达阵传球是半场长传还是端区前的短传?达阵抄截比完全没有透露出这些信息。

  其次,传球达阵数越高,从某种意义上可以反映出球队在端区前更愿意选择传球。罗杰斯在对手5码线次完成了达阵。达克-普雷斯科特有7次传球,4次达阵。但你不能说普雷斯科特在端区前就没有传球能力。因为在这样的情况下,牛仔比包装工更倾向于选择路面推进。

  第三,很多抄截是四分卫在比赛行将结束时的搏命长传造成的。这对比赛最终的结果几无影响。在这样的情况下,不做长传尝试甚至更会扼杀本已不多的翻盘机会。

  提高姿势水平:与其用达阵和抄截评价四分卫,用累积期望得分(Expected Points Added ,缩写EPA)显然能更好地衡量每档进攻球员的价值。ESPN的四分卫评分体系是基于达阵抄截这样的基础数据建立起来的。回到关于罗杰斯的话题,目前他在全联盟四分卫里每档进攻的EPA排在第11,四分卫评分排在第17。要看到球员级别的赛季EPA表现比较困难,目前只有Baldwin的推特会做每周更新。不过随着橄榄球数据的推广,相信在不久的将来这些数据图表便能公开地呈现在网络空间上。单场比赛球员每档进攻的EPA可以在Josh Hermsmeyer的Air Yards网站上查到。最后,大家还能关注下Next Gen Stats的调整传球成功率(Completion +/-),这项数据以四分卫期望传球成功率为基准,实际情况和预期进行对比得出正负值。这也是衡量四分卫表现的一种方法。

  示例:“本赛季达克-普雷斯科特(Dak Prescott)的传球评分只有99.3,排在联盟第12名,因而这个赛季他的表现很平庸。”

  宣传出现偏差的地方:第三条我们谈了达阵和抄截的问题,这条我们谈下传球评分。这个数据本身只考虑了传球的部分,他并没有考虑到四分卫避免被擒杀,掉球情况和四分卫地面推进这些信息。因而传球成功率高的四分卫在传球评分体系里会被高估。正如Football Perspective的Chase Stuart所说,“从预测角度来看,传球评分体系里2个基础变量传球成功率和被抄截率毫无意义。”本赛季四分卫的评价中,传球评分的缺陷非常显著。拉马尔-杰克逊路面跑了超过1000码,可这在传球评分里丝毫没有体现。丹尼尔-琼斯掉了8次球,传球评分里也看不到相应的减分。泰迪-布里奇沃特的传球距离全联盟最短,因而他的传球成功率达到了68%,于是他在传球评分里就排得非常靠前。

  提高姿势水平:就像第四条里说的一样,每档进攻的累积期望得分(EPA per play)、四分卫评分(QBR)和调整传球成功率(Completion +/-)都是很好的衡量标准。普雷斯科特这些数据都排在前列,每档累积期望得分排在第五,四分卫评分排在第三,调整传球成功率排在第六。如果你单独要看能从赛后数据里体现出的数据,建议选择平均传球码数(Y/A)或者扣除被擒杀丢失码数后的净平均传球码数(NY/A)。可这些传球数据也是有问题,因为他没有考虑到四分卫跑球的贡献。

  示例:“艾泽基尔-埃利奥特(Ezekiel Elliott)每年都能在场均冲球码数上名列前茅,他就是联盟顶级的跑卫。”

  宣传出现偏差的地方:跑卫能跑出多少码主要取决于他能得到多少机会。冲球码数最多的跑卫往往是能获得更多冲球机会。然而即便我们观察衡量跑卫每次冲跑的高阶数据例如每次冲球的累积期望得分或者成功率,会发现跑卫成功因素很多取决于跑卫以外的因素,例如前线的人数还有进攻锋线的挡人表现。换而言之,跑卫的效率无法直接衡量球队路面进攻的效率。

  提高姿势水平:就假设所有跑卫的冲球能力都一样,你就不会被人带风向。埃利奥特表现也不错。另外不要再用场均冲跑码数来衡量跑卫的水平了。

  示例:“西雅图海鹰目前11胜3负的成绩证明了他们是联盟中顶级球队之一。皮特-卡罗尔(Pete Carroll)保守的比赛策略收效显著。”

  宣传出现偏差的地方:球队的战绩很大程度上取决于他们在小分差比赛里的成绩。已有无数的文献证明,比分胶着的比赛里的结果是随机的——这意思是球队无法一直拿到小分差比赛的胜利,即球队不可能一直运气爆棚。例如,ESPN的Bill Barnwell发现,某队如果单赛季超出预期战绩2到3个胜场,平均下个赛季该队的战绩就会比预期差2.5个胜场。拿得下小分差比赛对提升球队战绩很重要,可这不代表球队的实力就比其他高出一个层次。

  提高姿势水平:比起战绩,NFL积分榜上各支球队得失分差更能反映出球队的整体实力。如果单看球队战绩的话,与其看总体战绩不如看大比分差的战绩。例如在差距超过8分的比赛里,49人的战绩是8战全胜,而海鹰的成绩只有2胜2负。其他可以衡量球队实力的数据还有球队版的每档累积期望得分,DVOA或者是538网站的Elo。

  示例:“自2016年以来,德里克-亨利(Derrick Henry)单场冲球超过18次的比赛泰坦的成绩是13胜2负,因而他们需要让亨利在比赛开始阶段多冲球。”

  宣传出现偏差的地方:这是另一种跑球制胜论调。这说法已经在2003年Football Outsiders的文章里被否定。这里再重复一遍类似的结论:“将冲球次数和比赛胜利作为因果关系联系在一起的问题是,这样的联系是建立在球队已经领先的基础上。因而建议不断跑球无法解决比赛里最关键的问题:如何取得领先。跑球和胜利的关系就和四分卫跪地和胜利关系一般没有意义。两者都传递出同样的信息:比赛后段领先的球队更可能获胜。和他相关的内容是Brian Burke提到的‘传球悖论’:传球越差的球队往往传球次数越多,因为他们在比赛里更容易落后。为了追平比分,他们会选择更具风险的传球进攻。因而这会出现胜场和传球次数的负相关的结论。”

  提高姿势水平:不要持这样的论调就行。除非你关注的球队里有像拉玛尔-杰克逊那样冲传双威胁的四分卫,否则你用数据来证明冲球制胜的努力只是徒劳。

  示例:“爱国者队每场比赛的冲球次数能排到联盟前10,可见他们很重视路面冲球。”

  宣传出现偏差的地方:如先前所述,球队是否选择冲球很重要的考量是比赛的情况。如果球队在比赛里大幅领先,他们会更多地选择冲球将时间耗尽。这个赛季,爱国者就经常碰到这样的情况。单看每场比赛的传球和冲球次数,更有意义的是观察在比分接近时球队的进攻选择,这才能真正反映球队的进攻哲学。

  提高姿势水平:要观察球队喜欢传球进攻还是露面推进,建议观察比分接近情况下前两档进攻的路面推进比,还要剔除上下半场最后两分钟的部分(可以参考Mike Sando分析海鹰偏重路面进攻的文章)。将三档和上下半场最后两分钟里的进攻选择剔除出研究样本的原因是,这些时候球队的进攻选择会受到场上情况的影响。

  例如第三档,球队会根据需要推进的码数决定自己的进攻选择;3档长码数的话,绝大部分情况球队都会选择传球进攻。在半场前的最后2分钟,决定球队进攻选择的是时间。最后,剔除大分差比赛的原因先前已经提过,大幅落后的球队会更倾向于传球进攻,而领先的球队会更多地选择传球。

  观察球队没有特定战术设计的前两档进攻能更好地看出球队的进攻偏好。不同情况下的冲跑数据可以在Warren Sharp的网站上查阅到。回到先前提到爱国者进攻选择的问题,一般情况下爱国者前两档的传球次数联盟第8多,由此可见爱国者更注重于传球进攻,而非路面推进。

  示例:“包装工每场比赛路面推进码数排在联盟第17,因此他们的地面进攻是联盟平均水平。”

  宣传出现偏差的地方:每场比赛球队冲跑和传球的码数反映的是球队的进攻偏好(选择路面推进的频率)和比赛场上的情况(球队领先的频率)。一般情况下包装工前两档的进攻都是以传球为主,因而即便包装工的战绩达到了11胜3负,很多场比赛都早早确立了领先优势,球队每场比赛的冲跑次数也只在联盟里排到第17。每场比赛球队的冲跑码数衡量的是球队选择冲跑的意愿,而非球队路面推进的实力。

  提高姿势水平:之前提到的每档累计期望得分是衡量特定组效率的合适选项。按照这个数据,包装工的路面进攻在联盟里能排到第7,取得正累积期望得分方面能排到联盟第10。Football Outsider的DOVA也是类似的选择,他会根据场上情况和面对的防守强度相应调整数据。截止第14周,包装工路面推进的DVOA排在全联盟第四位。

  示例:“Quandre Diggs缺阵的前9场比赛海鹰一共制造了14次失误,Diggs回来后的前三场比赛他们便制造了对手10次失误,可见海鹰的防守组已经脱胎换骨。”

  宣传出现偏差的地方:橄榄球比赛里有很多意外的因素。有时,球队会因为某个原因突然发生剧变。或许这次diggs和海鹰就是这个关系。但是很多时候,这只是偶然的情况。整个赛季亚特兰大猎鹰的防守一直很糟糕,可面对圣徒和黑豹时猎鹰的防守组瞬间开窍,打得对手措手不及。可接着他们面对坦帕湾海盗故态复萌,被对手灌了35分。在Diggs归来的3周海鹰的防守组表现有了改观,可是面对贾里德-高夫和肖恩-麦克维的公羊,海鹰的防守再次被打成了筛子。

  提高姿势水平:如果要研究特定情况下的数据,请一定要注意这一数据的样本容量。例如,如果看到有人提到某队在怎样的阵容下的表现或者面对对手盯人策略的表现,若原文没有提到这样的情况发生了多少次,对这样的结论基本可以一笑置之。

  其次,当特定情况下数据呈现某种趋势时,更多的解释会是橄榄球运动本身的随机性而非某一特定的原因。在样本不够大的情况下,一切都难以下定论。在看到某些有趣的结论时,首先请自问这样的情况有没有意义,能否持续,如果不满足这样的条件,那就把它当作份谈资就行了。

  橄榄球数据分析的迷思大致可分为三类。首先,选错了参考的数据(第1-6条)。若有新的更合适的数据出现时,旧的数据便不需要继续使用了。例如,擒杀本身不应该单独用来衡量冲传者的表现,因为这本身就是个小概率事件,现在更好的衡量指标是施压数。像诸如传球评分的数据,是时候把他扫进历史垃圾堆了。

  其次普遍的错误是用的数据容易受到比赛形势的影响,例如每场比赛的冲球次数或码数(第7-9条)。这些数据解释比赛会不会赢球,可解释不了如何取得领先(这个错误非常常见,尤其是赛季进行到现在这个阶段)。最后,有的数据因为样本太小没有实际意义,运气的因素占主导位置(第10条)。

  球迷对比赛的理解在不断进步。文中“提高姿势水平”的建议都是基于此时的理解所写出的。可能有些建议在不久的将来就过时了。但是我相信随着橄榄球数据的发展,未来的数据只会比现在更有效。就像比利-比恩在《点球成金》里说的一样,适者生存。

Copyright © 2002-2023 王博app免费 版权所有