Articles

Going Deep: The Real Value Of Statcast Data Part I

Nylig skrev Jeg om riktig bruk AV ERA indikatorer basert på deres relative prediktive verdi i lys av det faktum at jeg fant meg selv å bruke dem uten en dypere forståelse av hvorfor. Jeg tror dette er noe mange uformelle fantasy baseball spillere kan sette pris på. En venn fornærmer en krukke du liker basert på en høy EPOKE, så du løper til Fangraphs-siden, finner SIERA, xFIP eller FIP (det som er lavest), og spytter det ut igjen på vennen din. Enda verre, du vil gjøre Det på Twitter midt i et argument.

jeg, for en, er skyldig i dette.

Men det er ikke BARE ERA indikatorer. Vi gjør dette med å slå statistikk også. Først var Det Vanskelig% Fra Baseball Info Solutions. En spiller oppfyller ikke forventningene? Frykt ikke, Hans Harde% er astronomisk!den siste kjepphest i fantasy samfunnet er å sitere Statcast beregninger Fra Baseball Savant, som vil være fokus for denne artikkelen. For det første er det viktig å forstå hvor dataene kommer fra:

Statcast Er en kombinasjon av to forskjellige sporingssystemer — En Trackman doppler radar og high definition Chyron Hego kameraer. Radaren, installert i hver ballpark i en forhøyet posisjon bak hjemmeplaten … fanger tonehøyde, spinnhastighet, tonebevegelsesutgangshastighet, lanseringsvinkel, batted ballavstand, armstyrke og mer. Hver ballpark har også Et Chyron Hego kamerasystem, hvor seks stereoskopiske kameraer er installert i to banker med tre kameraer hver ned i feillinjen. Kamerasystemet sporer bevegelsen til menneskene på banen, noe som gjør det mulig å måle spillernes hastighet, avstand, retning og mer på hvert spill.

det er mye å pakke ut der, men dette er ikke en artikkel om nøyaktigheten Av doppler radar eller kamerasystem. I stedet, jeg ønsker å teste en kuratert liste over De mest populære Statcast treffer beregninger, generert fra radar og kameraer, for å finne ut hvilke som er mest prediktiv av en hitter makt.

For å gjøre disse avgjørelsene, vil jeg regress disse beregningene mot HR / FB% og ISO. Den tidligere er mer relevant fra en fantasy baseball perspektiv fordi vi ønsker å vite om en hitter vil fortsette å treffe home runs. I utgangspunktet vurderte jeg å regressere Statcast-beregninger mot rå home run-totaler, men de representerer ikke et nøyaktig mål på hitters kraft fordi disse totalene varierer basert på en hitters antall plateopptredener. Følgelig vurderte JEG HR / PA%, men det feier i mange plate utseende resultater som ikke påvirkes Av Statcast power metrics, som strikeouts og walks. Jeg landet til SLUTT PÅ HR / FB%, da den metriske bare vurderer baller i spill, spesielt fly baller, og de fleste hjemløp kommer på fly baller uansett.ISO ER mer nyttig fra et ekte baseballperspektiv enn HR / FB%, da det inkluderer dobler og tripler. DEN andre metriske jeg vurderte VAR SLG, MEN ISO er bedre for å måle en spillers råkraft enn SLG fordi den utelukker singler. Som et resultat vil jeg regress Statcast-beregninger mot ISO også.

for mine analyser gjennomførte jeg lineære og flere regresjoner. Med «regresjon» mener jeg at jeg fant bestemmelseskoeffisienten, eller r^2, som viser i hvilken grad en uavhengig variabel (f.eks. Jo høyere r^2 (som alltid vil være mellom 0 og 1), desto større forutsier den avhengige variabelen avvik i den uavhengige variabelen.

for min prøve valgte jeg alle spillere med minst 150 batted-ball hendelser (BBEs) i hver sesong fra 2015-18. Først regresserte jeg hvert Statcast-metrisk år over år for å se hvilke som var «klissete» og i hvilken grad. Deretter regresserte Jeg Statcast-beregninger mot HR / FB% og ISO. Til slutt gjorde jeg litt mer graving for å gi deg litt bonusanalyse.

La oss komme i gang.

Definisjoner

For å begynne, bør jeg gi noen praktiske definisjoner Fra Statcast ordliste for beregningene jeg skal teste slik at du har en referanseramme:

  • Batted ball event (BBE): representerer noen batted ball som produserer et resultat. Dette inkluderer outs, treff og feil. Enhver rettferdig ball er en batted ball hendelse. Så, også, er foul baller som resulterer i en ut eller en feil.Exit velocity (EV): Exit velocity måler hastigheten på baseball som det kommer av balltre, umiddelbart etter en batter gjør kontakt. Dette spores for alle batted ball hendelser-outs, treff og feil.Startvinkel (La): Representerer den vertikale vinkelen hvor ballen forlater en spillers balltre etter å ha blitt slått. Gjennomsnittlig startvinkel beregnes ved å dele summen av alle lanseringsvinkler med alle batted ball hendelser.
  • hard-hit rate (HH%): Statcast definerer en «hard-hit ball» som en hit med en utgangshastighet på 95 mph eller høyere, og en spillers «hard-hit rate» viser ganske enkelt prosentandelen batted baller som ble rammet på 95 mph eller mer.Fat: For å bli tømt, krever en batted ball en utgangshastighet på minst 98 mph. Ved den hastigheten slo baller med en lanseringsvinkel mellom 26 og 30 grader alltid garner barreled klassifisering. For hvert kryss over 98 mph utvides rekkevidden av lanseringsvinkler. Tønneklassifiseringen er tilordnet batted-ball hendelser hvis sammenlignbare slagtyper (når det gjelder utgangshastighet og lanseringsvinkel) har ført til et minimum .500 batting gjennomsnitt og 1.500 slugging prosent.

Nedenfor vil jeg regress gjennomsnittlig EV, gjennomsnittlig LA og HH%. I tillegg vil jeg undersøke EV på fly baller og line stasjoner (EV PÅ FB/LD), fat per batted-ball hendelse (Brls/BBE%), og fat per plate utseende (Brls/PA%).

År-Over-År Klebrighet

hvor godt gjør en hitter hh%, for eksempel, i ett år oversette til neste? I hvilken grad kan vi se på en hitters EV på FB / LD og si at det vil se ut som i neste sesong? Svaret på disse spørsmålene og mer er under.

Statcast Metrisk 2015-18 r^2
Gjennomsnittlig LA 0,6434
gjennomsnittlig ev 0,61519
0,6674
hh% 0,6185
brls/bbe% 0.6344
brls/pa% 0.5735

det er noen konklusjoner vi kan trekke fra disse tallene. For det første er de alle ganske like, bare mellom 0.5735 og 0.6674. Vi vet at år-til-år-prediktiviteten derfor er relativt sterk for hver beregning. For DET andre vil EV PÅ FB/LD på ett år forklare mer variasjon I EV PÅ FB / LD i det neste enn noen Av De Andre Statcast-beregningene. Det er den «stickiest» av dem alle.

Tredje, Selv Om Brls/BBE% og Brls / PA% virker like, er de faktisk ganske forskjellige. Disse forskjellene gjenspeiles i Det faktum At Brls/BBE% er mer prediktiv av seg selv på tvers av årstider. Brls/ BBE % vurderer bare fat på batted-ball hendelser, Mens Brls / PA% står for fat som en funksjon av alle plate opptredener. Siden det er betydelig flere plate utseende resultater enn bare batted-ball hendelser, er Det ikke overraskende At Brls / PA% er utsatt for mer svingninger over årstider. Hvis en hitter forbedrer seg på strikeout eller walk-priser, vil Hans Brls/PA% endres i det følgende året, mens Hans Brls / BBE% forblir upåvirket.

Fjerde, men ikke reflektert i tabellen ovenfor, stabiliserer hver av disse statistikkene etter ca 50 baller i spill. Vi vet dette fra Noen gode undersøkelser Av Russel Carleton, som Du kan lese her og her. Disse Statcast-beregningene er alle avledninger AV LA, EV og Fat. Russel Carleton fant at disse tre statistikkene stabiliserer seg etter 50 baller i spill(omtrent 18 spill spilt).Nå som vi vet hvor klebrig hver metrisk er, og hvor raskt de stabiliserer, vet vi i hvilken grad vi kan være sikre på å ansette dem. Det er på tide å regressere DEM mot HR / FB% og ISO.

Hard%

Først trengte jeg en kontrollvariabel. En som vi kunne sammenligne resultatene av våre regresjoner for å bestemme den relative prediktive verdien Av Statcast power metrics. Jeg avgjort På Hard%, som er rapportert På Fangraphs spiller sider og samlet Inn Av Baseball Info Solutions. Ifølge Fangraphs:

siden 2010 har videospeiderne registrert hvor lenge ballen var i luften, landingsstedet og typen batted ball (fly ball, bakken ball, liner, etc) og bis-algoritmen bestemmer om ballen var myk, middels eller hard hit. Dessverre er den nøyaktige algoritmen (de nøyaktige kuttpunktene/metodikken) proprietær TIL BIS, og vi kan ikke dele nøyaktig hva som utgjør hard kontakt, men beregningen er laget basert på hengetid, sted og generell bane.

I mange år Har Hard% blitt sitert for å avgjøre om en spiller vil opprettholde høye home run-totaler. Så, for samme utvalg av hitters fra 2015-18, regresserte Jeg Hardt % mot HR / FB% og ISO for å teste veracity av den antagelsen.

Som du kan se, Har Hard% et relativt sterkt forhold til BÅDE HR / FB% og ISO. Husk at vi er kresne bestemmelseskoeffisienten, som kommer til å være lavere enn Pearson korrelasjonskoeffisienten (r). Gitt antall ukjente variabler som påvirker spillerens HR / FB% eller ISO (f.eks. ballpark, lanseringsvinkel, kvalitet på motsatt krukke, etc.), en r^2 av 0,44 eller 0,48 er ganske sterk. Sagt på en annen måte, 44% av variansen I HR/FB%, for eksempel, er forutsigbar Fra Hard%.

Gjennomsnittlig Lanseringsvinkel

Nå som vi har en kontrollgruppe, kan Vi måle i hvilken grad Statcast-beregninger er prediktive for våre rå effektmålinger.

På den ene siden ser vi at gjennomsnittlig LA i seg selv ikke er prediktiv for HR / FB% gitt r^2 av 0,05852. Intuitivt er dette fornuftig. Hvorvidt en batter løfter mer eller mindre, er irrelevant for om han er i stand til å muskel hans fly baller ut av parken. Å ta kvadratroten på 0,05852 gir en 0,2419 Pearson korrelasjonskoeffisient, noe som betyr at gjennomsnittlig LA og HR/FB% er positivt korrelert til en grad. Dette er fornuftig også. Hitters som heve mer tendens til å være makt hitters som har evnen til å skape hjem går ut av sine fly baller. Men heve av seg selv ikke føre til flere hjem kjører på fly baller.på den annen side er gjennomsnittlig LA mer prediktiv FOR ISO. ISO er et mål på totale ekstra base treff over totalt på flaggermus. En hitter som løfter mer er mer sannsynlig å ha en større andel av sin totale på flaggermus resultere i ekstra-base dette.

Gjennomsnittlig Utgangshastighet

Gjennomsnittlig EV er en annen historie. Jeg forventet at DET skulle være mer prediktivt FOR HR / FB% og ISO, da DET er et mål for hitterens råkraft, i motsetning til gjennomsnittlig LA, som er et mål for en hitters tilnærming.

Ikke Overraskende, min forventning er båret ut i regresjonene. Med lignende r^2-verdier Til Hard%, er gjennomsnittlig EV omtrent like nyttig for å forutsi rå effekt (målt VED HR/FB% og ISO) som Hard%. Min gjetning er grunnen til at Det ikke Er bedre Enn Hard% , er at Det, Som Hard%, måler en hitters EV på bakken baller samt fly baller og linjestasjoner. Dette reduserer i sin tur den prediktive verdien av gjennomsnittlig EV som en effektmåling.Separat, Er det sannsynlig at gjennomsnittlig EV er sannsynlig mer prediktiv FOR ISO enn HR/FB% fordi inkludering AV EV på bakken baller er faktisk nyttig for å forutsi dobler, som hardt rammet bakken baller kan finne gress i utmark for dobler. I motsetning TIL HR/FB% inkluderer ISO dobler og tripler.

Utgangshastighet på Fly Baller og Linjestasjoner

Neste, jeg ønsket å undersøke EV PÅ FB/LD. Fra begynnelsen forventet JEG EV PÅ FB / LD å være en av de beste, om ikke det beste, ved å forutsi HR / FB% og ISO. Og hvorfor ikke? Det er rett og slett et mål på hvor fort en batter fly baller og linje stasjoner forlate sin bat. Jo raskere de reiser, jo mer sannsynlig er de å bli hjemme går. Dermed bør metriske være prediktiv av MINST HR / FB%, som bare er et mål på hvor ofte fly baller blir hjemme kjører.

min forventning er delvis reflektert i r^2-verdiene ovenfor. For en ting er 0.6175 et sterkt resultat. Spesielt i forhold til vår kontrollmetrikk (Hard%) og De Andre Statcast-beregningene vi har testet så langt. Dermed kan du komfortabelt se på en hitters EV på FB/LD for å se om HANS HR / FB% vil regressere.

Likevel kan det samme ikke sies som pålitelig FOR ISO. Årsaken er sannsynlig AT ISO-nevneren inkluderer alle på flaggermus og derfor feier i strikeouts og bakken baller. Likevel er en r^2 av 0.5160 en fin påminnelse om at en hitters EV på FB / LD er viktig for både fantasy baseball og real-life baseball. Andrew Perpetua sa det best for to år siden: Exit velocity trumps launch angle.

Hard-Hit Rate

jeg har sett mye diskusjon rundt HH% og dens verdi som et verktøy for å estimere en hitters kraftpotensial. Jeg var skeptisk fordi HH%, som gjennomsnittlig EV, looper i alle batted-ball typer, inkludert bakken baller.

Som du kan se, med en r^2 på 0,5343, ER HH% mer prediktiv FOR HR/FB% Enn Hard%, gjennomsnittlig LA og gjennomsnittlig EV, men ikke så prediktiv FOR HR/FB% som EV på FB / LD. DET er enda mindre forutsigbart FOR ISO enn Hard%.jeg har hørt påstanden OM AT HH% er nyttig fordi hvis en hitter skulle gjøre en svingendring og heve mer, vil vi vite hva som skjedde med de bakken ballene som nå blir fly baller og linjestasjoner, og HH% fanger EV på de bakken ballene. Min retort til det ville være at vi bare skulle se PÅ EV PÅ FB/LD, fordi det er en bedre representasjon av hva som ville skje, var de bakken ballene til å bli til fly baller eller linjestasjoner. Dette gjenspeiles i regresjonene.Når det er sagt, har jeg også hørt påstanden om AT HH% korrelerer sterkt til xwOBA og xwOBAcon og kan derfor være et bedre mål på en hitters sanne talent fra et ekte baseballperspektiv. Men det kravet er utenfor rammen av denne artikkelen.

Brls/BBE%& Brls/PA%

jeg bestemte meg for Å behandle Brls/bbe% og Brls/PA% i tandem da de er like målinger med litt forskjellige denominatorer. Den tidligere vurderer bare fat på baller i spill, mens sistnevnte anser dem som en funksjon av alle plateopptredener. Hvilken er det beste målet for rå kraft?

Begynner Med Brls / bbe%, ser vi r^2 TIL BÅDE HR / FB% og ISO er veldig høy. Det er høyere enn noe resultat vi har hatt ennå. Som du ser om et minutt, er det vår beste enkeltmetrikk å forutsi hvor godt en hitter kan muskel hans fly baller ut av parken, eller om HANS HR/FB% vil regress.grunnen til at DET er bedre enn EV på FB / LD er fordi det bare fanger de ballene i spill som er rammet så hardt at det er ekstremt sannsynlig å bli hjemme løp, mens EV PÅ FB / LD er et mål på gjennomsnittlig kraft og derfor kan bli skjev av outlier dårlig eller kraftig treffer FB / LD.således, som regresjonen forteller oss, jo mer en hitter kan produsere baller i spill på de perfekte LA – og EV-kombinasjonene (dvs.jo flere fat han produserer), jo mer sannsynlig er han å sprenge hjemme løp. OG LA band vurdert Av Brls / BBE% er smalt skreddersydd til de beste power launch vinkler, så det er ikke feiende i alle fly baller og linje stasjoner som EV PÅ FB / LD. Jeg hater å innrømme når jeg har feil, Men Brls/BBE% er mer prediktiv for BÅDE HR/FB% og ISO enn EV på FB / LD.

Det samme gjelder For Brls / PA%. DET er litt mindre forutsigbart FOR HR/FB% fordi, i motsetning Til Brls/BBE%, vurderer det mer enn bare baller i spill, OG HR/FB% er bare et mål på kraft på fly baller (en type ball i spill). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0.7269 0.70199
BRLS/PA% 0.7071 0.7319

etter å ha nådd 50 ballen i spill stabilisering poeng, er det beste alternativet å se på brls/bbe% for Å se Om en HITTER hr/fb% er bærekraftig, og brls / pa% for iso. Husk AT HR / FB% og ISO er de beste utgangene vi må måle en hitters kraftproduksjon fordi de eliminerer mye av støyen (f. eks.; strikeouts elimineres også FRA HR / FB%) av andre effektmålinger(F. eks. HR / XBH totaler eller HR / PA%). Dermed Er Brls / BBE% og Brls / PA% de beste rå strøminngangene som er tilgjengelige.

Flere Regresjoner

Med det sagt, ønsket jeg å sjekke arbeidet mitt med flere regresjoner. Med andre ord, testing av to eller flere uavhengige variabler (f. eks. gjennomsnittlig LA og gjennomsnittlig EV) mot en avhengig variabel (F.EKS. Kanskje to Statcast-beregninger sammen var mer prediktive FOR HR / FB% og ISO enn de var individuelt.For å begynne med undersøkte jeg alle Seks Statcast-beregningene sammen for å se deres kombinerte prediktive effekt FOR HR / FB% og ISO. Det ga en r^2 på 0,7615 MED HR / FB% og 0,7634 MED ISO. Med andre ord, når kombinert, spådde alle seks Statcast-beregningene omtrent 76% av variansen I HR / FB% og ISO-prøvene.Gitt At Brls / BBE% og Brls/PA% spådde om lag 73% av variansen I HR / FB% og ISO-prøver, la ingen Annen Statcast-metrisk mye prediktiv verdi alene. Hvis du for eksempel legger til gjennomsnittlig lanseringsvinkel til disse to beregningene, presset r^2 med HR / FB% og ISO opp til 0,7510 og 0.7578, henholdsvis. Men det er egentlig ikke mye bedre. Ingen annen kombinasjon Av to Statcast beregninger flyttet nålen selv så høy.

Derfor Er Brls/BBE% og Brls / PA% kraftige beregninger. De er ganske klissete fra år til år også. Ser over resten Av Statcast leaderboards faktisk ikke kan fortelle deg noe du ikke ville få fra dem, og kan være misvisende. Å vite at vi ganske mye bare trenger Å se På Brls / BBE% for å forutsi HR / FB%, la oss sette det vi har lært i praksis.

noen få hitters vi kan identifisere hvem som skyldes HR/FB% forbedring inkluderer: Adalberto Mondesi (9,1 T/FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 T / FB%, 16,7 Brls/BBE%) og Freddie Freeman (5,6 T / FB%, 15,1 Brls / BB%). Noen av de overraskende HR/FB% ledere som jeg tror har tjent sine forhøyede HR/FB priser inkluderer: Mitch Moreland (27.8 HR/FB%, 20.9 Brls/BBE%), Luke Voit (26.7 HR/FB%, 20.9 Brls/BBE%), Og Yoan Moncada (22.7 HR/FB%, 19.2 Brls/BBE%).

Svingendringer og Statcast

Til Slutt ønsket Jeg å undersøke Hvilken Statcast-metrisk Som ville være mest nyttig for å varsle en strømbrudd basert på en svingendring. Som vi nettopp har lært, er suksess i kraftavdelingen avhengig av bedre Brls / BBE% og Brls / PA% – merker. Er det en måte vi kan identifisere hitters som kan forbedre på dem og i sin tur forbedre HR/FB% og ISO? I så fall, som hitters ville ha mest nytte av en slik endring?

vi vet at tønner består AV LA og EV. Bare den tidligere er virkelig innenfor en hitters kontroll. Jada, han kunne sette på mer muskler og begynne å treffe ballen hardere. Men vi kan egentlig ikke forutsi det. I stedet, hvis vi skulle anta at han skal heve mer, noe som er mer et spørsmål om bevisst valg, vil han lykkes etter å ha gjort det? Kanskje en spiller gjorde en uttalelse til media at han har til hensikt å heve ballen. Ville det faktisk være til nytte for ham? For å svare på alle disse spørsmålene, bestemte jeg meg for hvilke ikke-La Statcast-beregninger som var mest prediktive For Brls / BBE% og Brls / PA % av, du gjettet det, kjører lineære og flere regresjoner.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

I Stedet for å gjøre hver graf og betydelig forlenge lengden på denne artikkelen, bestemte jeg meg for å bare sette r^2-verdiene i et omfattende bord. Følgelig kan DU se AT EV på FB / LD er den mest prediktive Av Brls / BBE% og Brls / PA%. Så mye at å legge I HH% eller gjennomsnittlig EV gir ingen verdi til prøven, og i noen tilfeller gjør det faktisk mindre prediktivt. Dette resultatet gjør meg svimmel også fordi EV PÅ FB / LD er ikke bare prediktiv, men det er også stickiest Av Våre Statcast beregninger. Det er en fin måte å finne din swing-endring breakouts.Dette er mest verdifullt i det hypotetiske scenariet der en hitter opprettholdt utmerket EV på FB / LD, men har ikke truffet mange flueballer og linjestasjoner, noe som gir ham plass til å forbedre seg. Men i stedet er alt best illustrert av et eksempel.

Ta Josh Bell, for eksempel. Jeg var ute på ham å gå inn i sesongen, delvis, fordi han ikke var heve. I fjor var hans gjennomsnittlige LA 9 grader, og han slo bare 34,6% fly baller og 41.7% bakken baller, som begrenset Hans Brls / BBE% til 7% (151. totalt av de med 150 BBEs) og Hans Brls/PA% til 4.8% (150.totalt). Dette var til tross for hans mye bedre EV PÅ FB / LD på 94.2 mph (84.totalt). I år ser det ut til at han gjør en felles innsats for å heve, og gitt sin latente kraft, kan den støtte en breakout. Nå treffer han 37,5% fly baller og 41,7% bakken baller til en gjennomsnittlig LA på 12 grader. Ikke bli overrasket om hans fat priser forbli forhøyet på 14.6 Brls / BBE% og 10.3 Brls / PA% (og i sin tur, så kunne hans 16.7 HR / FB% og .276 ISO).

Dermed, hvis vi vet hvem som skal heve mer, kan vi enkelt skille hveten fra kafet. Det er ikke ved å se PÅ DERES HH% eller gjennomsnittlig EV; i stedet, bare ta et raskt blikk på DERES EV PÅ FB / LD.

Konklusjon

forhåpentligvis vil folk begynne å bruke Statcast-beregninger på riktig måte. Hvis du ser en fantasy baseball analytiker sitere en hitter Hard%, HH%, eller gjennomsnittlig EV å foreslå en strøm breakout, sjekk hans fat priser. DU vet at DE er prediktive FOR HR / FB% og ISO, og at de er klissete. Sjekk deretter EV på FB / LD. Du vet det kan varsle mer i kraftavdelingen hvis han begynner å heve, og at den vil holde seg fast også. La oss ikke bare anta beregninger Som Hard%, HH% eller gjennomsnittlig EV er best fordi vi har tilgang til dem.

dette er bare begynnelsen. I Del II sjekker jeg den relative verdien Av Statcast-beregninger mot BABIP. Stay tuned for mer.

Utvalgt Bilde Av Justin Paradis (@freshmeatcomm På Twitter)