Articles

går dybt: den reelle værdi af Statcast Data del i

for nylig skrev jeg om korrekt brug af ERA-indikatorer baseret på deres relative forudsigelige værdi i lyset af det faktum, at jeg befandt mig ved at bruge dem uden en dybere forståelse af hvorfor. Jeg tror, det er noget, som mange afslappede fantasy baseball spillere kan sætte pris på. En ven fornærmer en kande, du kan lide, baseret på en høj æra, så du løber til hans Fangraphs-side, finder SIERA, FIP eller FIP (alt efter hvad der er laveste) og spytter det tilbage til din ven. Værre endnu, du vil gøre det på kvidre midt i et argument.

jeg, for en, er skyldig i dette.

men det er ikke kun ERA indikatorer. Det gør vi også med at ramme statistikker. For det første var det hårdt% fra Baseball Info Solutions. En spiller klarer sig ikke til forventningerne? Frygt aldrig, hans hårde% er astronomisk!

den seneste fad i fantasy-samfundet er at citere Statcast-metrics fra Baseball Savant, som vil være i fokus i denne artikel. For det første er det vigtigt at forstå, hvor disse data kommer fra:

Statcast er en kombination af to forskellige sporingssystemer — en Trackman Doppler radar og high definition Chyron Hego kameraer. Radaren, der er installeret i hver ballpark i en forhøjet position bag hjemmepladen … fanger pitchhastighed, spinhastighed, pitch bevægelse Udgangshastighed, startvinkel, batted boldafstand, armstyrke og mere. Hver for sig har hver ballpark også et chyron Hego-kamerasystem, hvor seks stereoskopiske kameraer er installeret i to banker med tre kameraer stykket ned ad den dårlige linje. Kamerasystemet sporer bevægelsen af folket på banen, hvilket giver mulighed for måling af spillerens hastighed, afstand, retning og mere på hvert spil.

der er meget at pakke ud der, men dette er ikke en artikel om nøjagtigheden af Dopplerradaren eller kamerasystemet. I stedet vil jeg teste en kurateret liste over de mest populære Statcast-rammemålinger, genereret fra radaren og kameraerne, for at bestemme, hvilke der er mest forudsigelige for en hitters magt.

for at gøre disse bestemmelser, vil jeg regressere disse målinger mod HR/FB% og ISO. Førstnævnte er mere relevant ud fra et fantasy baseball-perspektiv, fordi vi vil vide, om en hitter fortsætter med at ramme hjemmeløb. I første omgang overvejede jeg at regressere Statcast-målinger mod rå home run-totaler, men de repræsenterer ikke et nøjagtigt mål for hitters magt, fordi disse totaler varierer baseret på en hitters antal pladeoptræden. Derfor overvejede jeg HR/PA%, men det fejer i mange pladeudseende resultater, der ikke er påvirket af Statcast-effektmålinger, såsom strejker og gåture. Jeg landede til sidst på HR / FB%, da den metriske kun betragter bolde i spil, specifikt flykugler, og de fleste hjemmeløb kommer alligevel på flykugler.

ISO er mere nyttigt ud fra et ægte baseballperspektiv end HR / FB%, da det inkluderer dobbelt og tredobbelt. Den anden måling, jeg overvejede, var SLG, men ISO er bedre til at måle en spillers rå kraft end SLG, fordi den udelukker singler. Som et resultat vil jeg også regressere Statcast-metrics mod ISO.

til mine analyser udførte jeg lineære og flere regressioner. Ved “regression” mener jeg, at jeg fandt bestemmelseskoefficienten eller r^2, som viser, i hvilket omfang en uafhængig variabel (f.eks. lanceringsvinkel) forklarer variationen i prøven af en afhængig variabel (f. eks. Jo højere r^2 (som altid vil være mellem 0 og 1), jo større forudsiger den afhængige variabel afvigelser i den uafhængige variabel.

til min prøve valgte jeg alle spillere med mindst 150 batted-ball events (BBEs) i hver sæson fra 2015-18. Først, jeg regresserede hver Statcast-metrisk år over år for at se, hvilke der var “klæbrige” og i hvilken grad. Derefter regresserede jeg Statcast-metrics mod HR / FB% og ISO. Endelig gjorde jeg lidt mere grave for at give dig en bonusanalyse.

lad os komme i gang.

definitioner

for at begynde skal jeg give nogle praktiske definitioner fra Statcast-ordlisten for de målinger, jeg tester, så du har en referenceramme:

  • Batted ball event (BBE): repræsenterer enhver batted bold, der producerer et resultat. Dette omfatter outs, hits og fejl. Enhver fair bold er en batted bold begivenhed. Så også er dårlige bolde, der resulterer i en ud eller en fejl.
  • Udgangshastighed (EV): Udgangshastighed måler baseballens hastighed, når den kommer ud af flagermusen, umiddelbart efter at en dej kommer i kontakt. Dette spores for alle batted bold begivenheder — outs, hits og fejl.startvinkel (LA): repræsenterer den lodrette vinkel, hvor bolden forlader en spillers flagermus efter at være blevet ramt. Gennemsnitlig startvinkel beregnes ved at dividere summen af alle lanceringsvinkler med alle battede boldhændelser.
  • hårdt ramt Sats (HH%): Statcast definerer en” hårdt ramt bold “som et hit med en Udgangshastighed på 95 mph eller højere, og en spillers” hårdt ramte sats ” viser simpelthen procentdelen af slagkugler, der blev ramt ved 95 mph eller mere.
  • tønde: for at blive tønde kræver en slagkugle en Udgangshastighed på mindst 98 mph. Ved den hastighed ramte bolde med en lanceringsvinkel mellem 26 og 30 grader, der altid fik tøndeklassificering. For hvert kryds over 98 mph udvides rækkevidden af lanceringsvinkler. Tøndeklassifikationen er tildelt batted-ball begivenheder, hvis sammenlignelige hittyper (med hensyn til udgangshastighed og lanceringsvinkel) har ført til et minimum .500 batting gennemsnit og 1.500 slugging procent.

nedenfor vil jeg regressere gennemsnitlig EV, gennemsnitlig LA og HH%. Desuden vil jeg undersøge EV på flyve bolde og line drev (EV på FB/LD), tønder pr batted-ball begivenhed (Brls/BBE%), og tønder pr plade udseende (Brls/PA%).

år-Over-år klæbrighed

hvor godt oversætter en hitters HH% for eksempel i et år til det næste? I hvilken grad kan vi se på en hitter ‘ s EV på FB / LD og sige, at det vil se ens ud i den følgende sæson? Svaret på disse spørgsmål og mere er nedenfor.

Statcast Metric 2015-18 r^2
gennemsnit LA 0.6434
gennemsnitlig EV 0.61519
EV on FB/ld 0.6674
HH% 0.6185
brls/BBE% 0.6344
brls/pa% 0.5735

der er et par konklusioner, vi kan drage af disse tal. For det første er de alle ret ens, kun mellem 0.5735 og 0.6674. Vi ved, at År-til-år forudsigelighed er, følgelig, relativt stærk for hver måling. For det andet vil EV på FB/LD om et år forklare mere variation i EV på FB/LD i det næste end nogen af de andre Statcast-målinger. Det er den “stickiest” af dem alle.

for det tredje, selvom Brls/BBE% og Brls/PA% synes ens, er de faktisk helt forskellige. Disse forskelle afspejles i det faktum, at Brls/BBE% er mere forudsigelig for sig selv på tværs af årstider. Brls / BBE% betragter kun tønder på batted-ball begivenheder, mens Brls/PA% tegner sig for tønder som en funktion af alle plade optrædener. Da der er betydeligt flere pladeudseende resultater end bare batted-ball begivenheder, er det ikke overraskende, at Brls/PA% er udsat for mere udsving på tværs af årstider. Hvis en hitter forbedrer sin strikeout eller gå satser, hans Brls/PA% vil ændre sig i det følgende år, mens hans Brls/BBE% vil forblive upåvirket.

fjerde, men ikke afspejlet i tabellen ovenfor, stabiliseres hver af disse statistikker efter omkring 50 bolde i spil. Vi ved dette fra nogle gode undersøgelser af Russel Carleton, som du kan læse her og her. Disse Statcast-målinger er alle afledninger af LA, EV og tønder. Russel Carleton fandt ud af, at disse tre statistikker stabiliseres efter 50 bolde i spil (cirka 18 spillede spil).

nu hvor vi ved, hvor klæbrig hver måling er, og hvor hurtigt de stabiliseres, ved vi, i hvilken grad vi kan være sikre på at anvende dem. Det er på tide at regressere dem mod HR/FB% og ISO.

Hard%

først havde jeg brug for en kontrolvariabel. En, hvormed vi kunne sammenligne resultaterne af vores regressioner for at bestemme den relative forudsigelige værdi af Statcast-effektmålinger. Jeg afgjort på Hard%, som er rapporteret på Fangraphs player sider og indsamlet af Baseball Info Solutions. Ifølge Fangraphs:

siden 2010 registrerede video scouts den tid, Bolden var i luften, landingsstedet og typen af slagkugle (flyvekugle, jordkugle, liner osv.), og BIS-algoritmen bestemmer, om bolden var blød, medium eller hårdt ramt. Desværre er den nøjagtige algoritme (de nøjagtige skærepunkter/metode) proprietære til BIS, og vi kan ikke dele nøjagtigt, hvad der udgør hård kontakt, men beregningen foretages baseret på hængetid, placering og generel bane.

i årevis er Hard% citeret for at afgøre, om en spiller vil opretholde høje hjemmeløbstotaler. Så for den samme prøve af hitters fra 2015-18 regresserede jeg Hard% mod HR/FB% og ISO for at teste rigtigheden af denne antagelse.

som du kan se, har Hard% et relativt stærkt forhold til både HR/FB% og ISO. Husk, at vi skelner bestemmelseskoefficienten, som vil være lavere end Pearson korrelationskoefficienten (r). I betragtning af antallet af ukendte variabler, der påvirker en spillers HR/FB% eller ISO (f.eks.), en r^2 på 0,44 eller 0,48 er ret stærk. Sagt på en anden måde er 44% af variansen i HR/FB% for eksempel forudsigelig fra Hard%.

gennemsnitlig Lanceringsvinkel

nu hvor vi har en kontrolgruppe, kan vi måle, i hvilket omfang Statcast-metrics er forudsigelige for vores rå effektmålinger.

På den ene side ser vi, at gennemsnit LA på egen hånd ikke er forudsigelig for HR / FB% givet r^2 af 0.05852. Intuitivt giver det mening. Hvorvidt en dej hæver mere eller mindre er irrelevant for, om han er i stand til at muskel sine fluebolde ud af parken. At tage kvadratroden af 0,05852 giver en 0,2419 Pearson korrelationskoefficient, hvilket betyder, at gennemsnit LA og HR/FB% er positivt korreleret til en grad. Det giver også mening. Hitters, der hæver mere, har tendens til at være magthitters, der har evnen til at skabe hjem løber tør for deres fluebolde. Men at hæve af sig selv forårsager ikke flere hjemmeløb på fluebolde.

på den anden side er gennemsnitlig LA mere forudsigelig for ISO. ISO er et mål for total ekstra base hits over total på flagermus. En hitter, der hæver mere, er mere tilbøjelig til at have en større procentdel af hans samlede på flagermus, hvilket resulterer i ekstra base dette.

gennemsnitlig Udgangshastighed

gennemsnitlig EV er en anden historie. Jeg forventede, at det ville være mere forudsigeligt for HR/FB% og ISO, da det er et mål for hitters råkraft, i modsætning til gennemsnittet LA, hvilket er et mål for en hitters tilgang.

ikke overraskende er min forventning båret ud i regressionerne. Med lignende r^2-værdier som Hard% er den gennemsnitlige EV omtrent lige så nyttig til at forudsige rå effekt (målt ved HR/FB% og ISO) som Hard%. Mit gæt er grunden til, at det ikke er bedre end Hard% er, at det som Hard% måler en hitters EV på jordkugler såvel som flykugler og linjedrev. Dette deprimerer igen den forudsigelige værdi af gennemsnitlig EV som en effektmåling.

separat er det sandsynligt, at Gennemsnitlig EV sandsynligvis er mere forudsigelig for ISO end HR / FB%, fordi dens inkludering af EV på jordkugler faktisk er nyttig til at forudsige dobbelt, da hårdt ramte jordkugler kan finde græs i udmarken til dobbelt. I modsætning til HR/FB% inkluderer ISO dobbelt og tredobbelt.

Afslut hastighed på Fly bolde og Line drev

næste, jeg ønskede at undersøge EV på FB/LD. Fra starten forventede jeg, at EV på FB/LD ville være en af de bedste, hvis ikke den bedste, til at forudsige HR / FB% og ISO. Og hvorfor ikke? Det er simpelthen et mål for, hvor hurtigt en dejs fluebolde og linjedrev forlader sin flagermus. Jo hurtigere de rejser, jo mere sandsynligt er de at blive hjemmeløb. Således skal metricen være forudsigelig for mindst HR / FB%, hvilket kun er et mål for, hvor ofte flyvekugler bliver hjemmeløb.

min forventning afspejles delvist i R^2-værdierne ovenfor. For det første er 0.6175 et stærkt resultat. Især i forhold til vores kontrolmåling (Hard%) og de andre Statcast-målinger, vi har testet hidtil. Således kan du komfortabelt se på en hitters EV på FB/LD for at se, om hans HR / FB% vil regressere.

alligevel kan det samme ikke siges som pålideligt for ISO. Årsagen er sandsynligvis, at ISO ‘ s nævner inkluderer all at bats og derfor fejer i strejker og jordkugler. Alligevel er en r^2 af 0.5160 en god påmindelse om, at en hitter ‘ s EV på FB/LD er vigtig for både fantasy baseball og real-life baseball. For to år siden sagde Perpetua, at det var bedst: Afslut hastighed trumfer lanceringsvinkel.

Hard-Hit Rate

Jeg har set en masse diskussion omkring HH% og dens værdi som et værktøj til estimering af en hitters strømpotentiale. Jeg var skeptisk, fordi HH%, ligesom gennemsnitlige EV, sløjfer i alle batted-ball typer, herunder jorden bolde.

som du kan se, med en r^2 på 0,5343, er HH% mere forudsigelig for HR/FB% end hård%, gennemsnitlig LA og gennemsnitlig EV, men ikke så forudsigelig for HR/FB% som EV på FB / LD. Det er endnu mindre forudsigeligt for ISO end Hard%.

Jeg har hørt påstanden om, at HH% er nyttig, fordi hvis en hitter skulle foretage en svingændring og hæve mere, ville vi gerne vide, hvad der skete med de jordkugler, der nu bliver flykugler og linjedrev, og HH% fanger EV på disse jordkugler. Min retort til det ville være, at vi bare skulle se på EV på FB / LD, fordi det er en bedre repræsentation af, hvad der ville ske, hvis disse jordkugler blev til flyvekugler eller linjedrev. Dette afspejles i regressionerne.

når det er sagt, har jeg også hørt påstanden om, at HH% korrelerer stærkt med kV og kV og derfor kan være et bedre mål for en hitters sande talent fra et rigtigt baseballperspektiv. Men denne påstand er uden for denne artikels anvendelsesområde.

Brls/BBE%& Brls/PA%

jeg besluttede at behandle Brls/BBE% og Brls/PA% i tandem, da de er lignende målinger med lidt forskellige nævnere. Førstnævnte betragter bare tønder på bolde i spil, mens sidstnævnte betragter dem som en funktion af alle pladeudseende. Hvilket er det bedre mål for rå magt?

begyndende med Brls/BBE% ser vi r^2 til både HR/FB% og ISO er meget høj. Det er højere end noget resultat, vi har haft endnu. Som du vil se om et minut, er det vores bedste enkeltmåling at forudsige, hvor godt en hitter kan muskel sine fluebolde ud af parken, eller om hans HR/FB% vil regressere.

grunden til, at det er bedre end EV på FB/LD, er fordi det kun fanger de bolde i spil, der er ramt så hårdt, at det er yderst sandsynligt, at de bliver hjemmeløb, mens EV på FB/LD er et mål for gennemsnitlig effekt og derfor kan skæv af outlier dårligt eller kraftigt ramt FB / LD.

således, som regressionen fortæller os, jo mere en hitter kan producere bolde i spil på de perfekte LA-og EV-kombinationer (dvs.jo flere tønder han producerer), jo mere sandsynligt er han at sprænge hjemmeløb. Og LA-båndet, der betragtes af Brls/BBE%, er snævert skræddersyet til de bedste kraftlanceringsvinkler, så det fejer ikke i alle fluebolde og linjedrev som EV på FB / LD. Jeg hader at indrømme, når jeg tager fejl, men Brls/BBE% er mere forudsigelig for både HR/FB% og ISO end EV på FB/LD.

det samme gælder for Brls/PA%. Det er lidt mindre forudsigeligt for HR/FB%, fordi det i modsætning til Brls/BBE% betragter mere end bare bolde i spil, og HR / FB% er bare et mål for magt på fluebolde (en type bold i spil). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0, 7269 0, 70199
Brls/PA% 0, 7071 0, 7319

Når du har nået 50-bolden i spilstabiliseringspunkter, er dit bedste valg at se på brls/BBE% for at se, om en hitters HR/FB% er bæredygtig, og brls/pa% for ISO. Husk, HR / FB% og ISO er de bedste output, vi har til at måle en hitters elproduktion, fordi de eliminerer meget af støjen (f. eks. gåture, foul outs, HBPs; strikeouts elimineres også fra HR / FB%) af andre effektmålinger (f.eks. Således er Brls / BBE% og Brls/PA% de bedste tilgængelige rå strømindgange.

flere regressioner

med det hele sagt, ville jeg kontrollere mit arbejde med flere regressioner. Med andre ord test af to eller flere uafhængige variabler (f.eks. gennemsnitlig LA og gennemsnitlig EV) mod en afhængig variabel (f. eks. Måske var to Statcast-målinger sammen mere forudsigelige for HR / FB% og ISO, end de var individuelt.

til at begynde med undersøgte jeg alle seks Statcast-metrics sammen for at se deres kombinerede forudsigende effekt for HR/FB% og ISO. Det gav en r^2 på 0,7615 med HR/FB% og 0,7634 med ISO. Med andre ord, når de kombineres, forudsagde alle seks Statcast-metrics omkring 76% af variansen i HR/FB % og ISO-prøverne.

i betragtning af at Brls/BBE% og Brls/PA% forudsagde omkring 73% af variansen i HR/FB% og ISO-prøver, tilføjede ingen anden Statcast-metrik meget forudsigelig værdi alene. For eksempel skubbede tilføjelse af gennemsnitlig startvinkel til disse to målinger r^2 med HR/FB% og ISO op til 0,7510 og 0.7578, henholdsvis. Men det er virkelig ikke meget bedre. Ingen anden kombination af to Statcast-målinger flyttede nålen selv så højt.

derfor er Brls / BBE% og Brls / PA% stærke målinger. De er også ret klæbrige år til år. Ser på tværs af resten af Statcast leaderboards faktisk kan ikke fortælle dig noget, du ikke ville få fra dem, og kan være vildledende. At vide, at vi stort set bare skal se på Brls/BBE% for at forudsige HR/FB%, lad os sætte det, vi har lært i praksis.

et par hitters vi kan identificere, hvem der skyldes HR / FB% forbedring inkluderer: Adalberto Mondesi (9,1 time / FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 time/FB%, 16,7 Brls/BBE%) og Freddie Freeman (5,6 time/FB%, 15,1 Brls/BB%). Nogle af de overraskende HR / FB% – ledere, som jeg mener har tjent deres forhøjede HR/FB-satser, inkluderer: Mitch Moreland (27,8 HR/FB%, 20,9 Brls/BBE%), Luke Voit (26,7 HR/FB%, 20,9 Brls/BBE%) og Yoan Moncada (22,7 HR/FB%, 19,2 Brls/BBE%).

Svingændringer og Statcast

endelig ønskede jeg at undersøge, hvilken Statcast-metric der ville være mest nyttig til portending af en strømafbrydelse baseret på en svingændring. Som vi lige har lært, afhænger succes i kraftafdelingen af bedre brls/BBE% og Brls/PA% mærker. Er der en måde, vi kunne identificere hitters, der kunne forbedre dem og igen forbedre HR/FB% og ISO? Hvis ja, hvilke hitters ville have størst gavn af en sådan ændring?

Vi ved, at tønder består af LA og EV. Kun førstnævnte er virkelig inden for en hitters kontrol. Jo da, han kunne sætte på flere muskler og begynde at ramme bolden hårdere. Men det kan vi ikke rigtig forudsige. I stedet, hvis vi skulle antage, at han vil hæve mere, hvilket er mere et spørgsmål om bevidst valg, så vil han få succes efter at have gjort det? Måske afgav en spiller en erklæring til medierne om, at han har til hensigt at hæve bolden. Ville det virkelig gavne ham? For at besvare alle disse spørgsmål bestemte jeg, hvilke ikke-LA Statcast-målinger der var mest forudsigelige for Brls/BBE% og Brls/PA% ved, du gættede det, kører lineære og flere regressioner.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

i stedet for at lave hver graf og udvide længden af denne artikel betydeligt, besluttede jeg at bare sætte r^2 værdierne i en omfattende tabel. Derfor kan du se, at EV på FB/LD er den mest forudsigelige for Brls/BBE% og Brls / PA%. Så meget, at tilføjelse i HH% eller gennemsnitlig EV giver ingen værdi til prøven og i nogle tilfælde gør det faktisk mindre forudsigeligt. Dette resultat gør mig også svimmel, fordi EV på FB/LD ikke kun er forudsigelig, men det er også den stickiest af vores Statcast-målinger. Det er en fantastisk måde at finde dine svingskifteudbrud på.

dette er mest værdifuldt i det hypotetiske scenario, hvor en hitter opretholdt fremragende EV på FB/LD, men har ikke ramt mange fluebolde og linjedrev, hvilket giver ham plads til at forbedre. Men i stedet illustreres alt bedst med et eksempel.

Tag Josh Bell, for eksempel. Jeg var ude på ham, der gik ind i sæsonen, delvis, fordi han ikke løftede. Sidste år var hans gennemsnitlige LA 9 grader, og han ramte kun 34,6% fluebolde og 41.7% jordkugler, som begrænsede hans Brls/BBE% til 7% (151.samlet af dem med 150 BBEs) og hans Brls/PA% til 4,8% (150. samlet). Dette var på trods af hans meget bedre EV på FB/LD på 94,2 mph (84.samlet). I år ser det ud til, at han gør en samordnet indsats for at hæve, og i betragtning af hans latente magt kan det understøtte en breakout. Nu rammer han 37,5% flyvebolde og 41,7% jordkugler til en gennemsnitlig LA på 12 grader. Må ikke blive overrasket, hvis hans tønde satser forbliver forhøjet på 14.6 Brls/BBE% og 10.3 Brls/PA% (og til gengæld, så kunne hans 16.7 HR/FB% og .276 ISO).

således, Hvis vi ved, hvem der skal hæve mere, kan vi let adskille hveden fra agnet. Det er ikke ved at se på deres HH% eller gennemsnitlige EV; i stedet skal du bare tage et hurtigt blik på deres EV på FB/LD.

konklusion

forhåbentlig vil folk begynde at bruge Statcast-metrics korrekt. Hvis du ser en fantasy baseball-analytiker citere en hitters hårde%, HH% eller gennemsnitlige EV for at foreslå en strømafbrydelse, skal du kontrollere hans tøndehastigheder. Du ved, at de er forudsigelige for HR / FB% og ISO, og at de er klæbrige. Tjek derefter hans EV på FB / LD. Du ved, at det kunne være mere i kraftafdelingen, hvis han begynder at hæve, og at det også holder fast. Lad os ikke bare antage, at målinger som Hard%, HH% eller average EV er bedst, fordi vi har adgang til dem.

Dette er kun begyndelsen. I Del II kontrollerer jeg den relative værdi af Statcast-metrics mod BABIP. Stay tuned for mere.

udvalgte billede af Justin Paradis (@freshmeatcomm på kvidre)