Articles

Going Deep: det verkliga värdet av Statcast Data Part i

nyligen skrev jag om korrekt användning av ERA-indikatorer baserat på deras relativa prediktiva värde mot bakgrund av det faktum att jag befann mig att använda dem utan en djupare förståelse för varför. Jag tror att det här är något som många casual fantasy basebollspelare kan uppskatta. En vän förolämpar en kanna du gillar baserat på en hög ERA, så du springer till hans Fangraphs-sida, hittar SIERA, xFIP eller FIP (vilket som är lägst) och spottar ut det på din vän. Ännu värre, du kommer att göra det på Twitter mitt i ett argument.

jag, för en, är skyldig till detta.

men det är inte bara ERA indikatorer. Vi gör detta med att slå statistik också. Först var det svårt% från Baseball Info Solutions. En spelare inte presterar till förväntningarna? Var aldrig rädd, hans hårda% är astronomisk!

den senaste modefluga i fantasy samhället är att citera Statcast metrics från Baseball Savant, som kommer att vara i fokus för denna artikel. Först, det är viktigt att förstå var dessa data kommer ifrån:

Statcast är en kombination av två olika spårningssystem — en Trackman Doppler-radar och high definition Chyron Hego-kameror. Radaren, installerad i varje ballpark i ett förhöjt läge bakom hemplattan … fångar tonhöjd, snurrhastighet, stigningsrörelsens utgångshastighet, startvinkel, slagbollavstånd, armstyrka och mer. Separat har varje ballpark också ett Chyron Hego-kamerasystem, där sex stereoskopiska kameror installeras i två banker med tre kameror per stycke längs foul-linjen. Kamerasystemet spårar människors rörelse på fältet, vilket möjliggör mätning av spelarens hastighet, avstånd, riktning och mer på varje spel.

det finns mycket att packa upp där, men det här är inte en artikel om noggrannheten hos Doppler-radaren eller kamerasystemet. Istället vill jag testa en kuraterad lista över de mest populära Statcast-träffmätningarna, genererade från radar och kameror, för att bestämma vilka som är mest prediktiva för en hitter makt.

för att göra dessa bestämningar kommer jag att regressera dessa mätvärden mot HR/FB% och ISO. Den förstnämnda är mer relevant ur ett fantasibaseballperspektiv eftersom vi vill veta om en hitter fortsätter att slå hemlöpningar. Inledningsvis övervägde jag att regressera Statcast-mätvärden mot raw home run-totaler, men de representerar inte ett exakt mått på hitters kraft eftersom dessa totaler varierar beroende på en hitters antal plattuppträdanden. Följaktligen ansåg jag HR / PA%, men det sveper i många plattutseenderesultat som inte påverkas av Statcast-effektmätningar, såsom strikeouts och promenader. Jag landade så småningom på HR / FB%, eftersom den metriska endast betraktar bollar i spel, speciellt flygbollar, och de flesta hemlöpningar kommer ändå på flygbollar.

ISO är mer användbar ur ett riktigt basebollperspektiv än HR/FB%, eftersom det innehåller dubblar och tripplar. Den andra metriska jag ansåg var SLG, men ISO är bättre för att mäta en spelares råa kraft än SLG eftersom det utesluter singlar. Som ett resultat kommer jag att regressera Statcast-mätvärden mot ISO också.

För mina analyser genomförde jag linjära och multipla regressioner. Med ”regression” menar jag att jag hittade bestämningskoefficienten eller r^2, som visar i vilken utsträckning en oberoende variabel (t.ex. lanseringsvinkel) förklarar variationen i provet av en beroende variabel (t. ex. HR/FB%). Ju högre r^2 (som alltid kommer att vara mellan 0 och 1), desto större förutsäger den beroende variabeln avvikelser i den oberoende variabeln.

För mitt prov valde jag alla spelare med minst 150 slagbollshändelser (BBEs) i varje säsong från 2015-18. Först regresserade jag varje Statcast-metrisk år Över år för att se vilka som var ”klibbiga” och i vilken grad. Därefter regresserade jag Statcast-mätvärden mot HR / FB% och ISO. Slutligen gjorde jag lite mer grävning för att ge dig lite bonusanalys.

Låt oss komma igång.

definitioner

till att börja med borde jag ge några praktiska definitioner från Statcast-ordlistan för de mätvärden som jag ska testa så att du har en referensram:

  • Batted ball event (BBE): representerar vilken boll som helst som ger ett resultat. Detta inkluderar outs, träffar och fel. Varje rättvis boll är en slagboll händelse. Så, för, är fula bollar som resulterar i en ut eller ett fel.
  • Exit velocity (EV): Exit velocity mäter basebollens hastighet när den kommer från fladdermusen, omedelbart efter att en smet har kommit i kontakt. Detta spåras för alla slagna bollhändelser-outs, träffar och fel.
  • startvinkel (LA): representerar den vertikala vinkeln där bollen lämnar en spelares fladdermus efter att ha slagits. Genomsnittlig startvinkel beräknas genom att dividera summan av alla startvinklar med alla slagna bollhändelser.
  • hårt träfffrekvens (HH%): Statcast definierar en ” hard-hit ball ”som en träff med en utgångshastighet på 95 mph eller högre, och en spelares” hard-hit rate ” visar helt enkelt andelen slagna bollar som slogs vid 95 mph eller mer.
  • fat: för att bli Pipa kräver en slagboll en utgångshastighet på minst 98 mph. Vid den hastigheten, bollar slog med en startvinkel mellan 26 och 30 grader alltid garner Pipa klassificering. För varje tick över 98 mph expanderar utbudet av lanseringsvinklar. Fatklassificeringen tilldelas slagbollshändelser vars jämförbara träfftyper (i termer av utgångshastighet och startvinkel) har lett till ett minimum .500 batting genomsnitt och 1.500 slugging procent.

nedan kommer jag att regressera Genomsnittlig EV, Genomsnittlig LA och HH%. Dessutom kommer jag att undersöka EV på fly bollar och linje enheter (EV på FB/LD), fat per batted-ball händelse (Brls/BBE%), och fat per platta utseende (Brls/pa%).

år-Över-år klibbighet

hur väl översätter en hitters HH%, till exempel, på ett år till nästa? I vilken grad kan vi titta på en hitter ’ s EV på FB/LD och säga att det kommer att se ut i följande säsong? Svaret på dessa frågor och mer finns nedan.

Statcast metrisk 2015-18 r^2
genomsnitt LA 0.6434
Genomsnittlig ev 0,61519
ev på FB/ld 0,6674
HH% 0,6185
brls/bbe% 0,6344
brls/pa% 0.5735

det finns några slutsatser vi kan dra av dessa siffror. För det första är de alla ganska lika, bara mellan 0.5735 och 0.6674. Vi vet att år-till-år prediktivitet är, följaktligen, relativt stark för varje metrisk. För det andra kommer EV på FB/LD på ett år att förklara mer variation i EV på FB/LD i nästa än någon av de andra Statcast-mätvärdena. Det är den ”stickiest” av dem alla.

tredje, även om Brls/BBE% och Brls/PA% verkar lika, är de faktiskt ganska olika. Dessa skillnader återspeglas i det faktum att Brls/BBE% är mer förutsägbart för sig själv över årstiderna. Brls/ BBE % anser endast fat på batted-ball händelser, medan Brls / PA% står för FAT som en funktion av alla platta framträdanden. Eftersom det finns betydligt fler plattutseende resultat än bara slagbollshändelser, är det inte förvånande att Brls/PA% är föremål för mer fluktuationer över årstiderna. Om en hitter förbättrar sin strikeout eller gå priser, hans Brls/PA% kommer att förändras under det följande året, medan hans Brls/BBE% kommer att förbli opåverkad.

fjärde, men inte återspeglas i tabellen ovan, stabiliseras var och en av dessa statistik efter cirka 50 bollar i spel. Vi vet detta från några stora forskning av Russel Carleton, som du kan läsa här och här. Dessa Statcast-mätvärden är alla derivat av LA, EV och Fat. Russel Carleton fann att dessa tre statistik stabiliseras efter 50 bollar i spel (cirka 18 spelade matcher).

Nu när vi vet hur klibbig varje metrisk är, och hur snabbt de stabiliseras, vet vi i vilken grad vi kan vara säkra på att använda dem. Det är dags att regressera dem mot HR / FB% och ISO.

hård%

först behövde jag en kontrollvariabel. En genom vilken vi kunde jämföra resultaten av våra regressioner för att bestämma det relativa prediktiva värdet av Statcast power metrics. Jag bosatte sig på Hard%, som rapporteras på Fangraphs spelarsidor och samlas in av Baseball Info Solutions. Enligt Fangraphs:

sedan 2010 registrerade videospejkarna hur mycket tid bollen var i luften, landningsplatsen och typen av slagboll (flygboll, markboll, liner, etc) och BIS-algoritmen bestämmer om bollen var mjuk, medium eller hård träff. Tyvärr är den exakta algoritmen (de exakta skärpunkterna/metodiken) proprietär för BIS och vi kan inte dela exakt vad som utgör hård kontakt, men beräkningen görs baserat på hängtid, plats och allmän bana.

i flera år har Hard% citerats för att avgöra om en spelare kommer att behålla höga home run-summor. Så, för samma urval av hitters från 2015-18, regresserade jag hårt% mot HR/FB% och ISO för att testa sannolikheten för det antagandet.

som du kan se har Hard% ett relativt starkt förhållande till både HR/FB% och ISO. Kom ihåg att vi skiljer bestämningskoefficienten, som kommer att vara lägre än Pearson-korrelationskoefficienten (r). Med tanke på antalet okända variabler som påverkar en spelares HR/FB% eller ISO (t.ex. ballpark, lanseringsvinkel, kvaliteten på motstående kanna etc.), en r^2 av 0,44 eller 0,48 är ganska stark. Sätt annorlunda, 44% av variansen i HR/FB%, till exempel, är förutsägbar från hård%.

Genomsnittlig startvinkel

Nu när vi har en kontrollgrupp kan vi mäta i vilken utsträckning Statcast-mätvärden är prediktiva för våra raw power-mätvärden.

å ena sidan ser vi att det genomsnittliga la i sig inte är förutsägbart för HR/FB% med tanke på R^2 av 0.05852. Intuitivt är det meningsfullt. Huruvida en smet lyfter mer eller mindre är irrelevant för om han kan Muskler sina flugbollar ut ur parken. Att ta kvadratroten av 0.05852 ger en 0.2419 Pearson korrelationskoefficient, vilket innebär att genomsnittet LA och HR/FB% är positivt korrelerade till en grad. Det här är också meningsfullt. Hitters som höjer mer tenderar att vara power hitters som har förmågan att skapa hemlöpningar ur sina flugbollar. Men att höja sig själv orsakar inte fler hemlöpningar på flygbollar.

å andra sidan är genomsnittlig LA mer förutsägbar för ISO. ISO är ett mått på totala extra bas träffar över totalt på fladdermöss. En hitter som höjer mer är mer sannolikt att ha en större andel av hans totala på fladdermöss resulterar i extra bas detta.

Genomsnittlig Utgångshastighet

Genomsnittlig EV är en annan historia. Jag förväntade mig att det skulle vara mer förutsägbart för HR / FB% och ISO eftersom det är ett mått på hitter ’s raw power, i motsats till genomsnittlig LA, vilket är ett mått på en hitter’ s approach.

inte överraskande, min förväntan bekräftas i regressionerna. Med liknande r^2-värden till hård% är genomsnittlig EV ungefär lika användbar för att förutsäga rå effekt (mätt med HR/FB% och ISO) som hård%. Min gissning är anledningen till att det inte är bättre än Hard% är att det, som Hard%, mäter en hitter ’ s EV på markbollar samt flygbollar och linjedrifter. Detta deprimerar i sin tur det prediktiva värdet av genomsnittlig EV som en effektmätare.

separat är det troligt att Genomsnittlig EV sannolikt är mer prediktiv för ISO än HR/FB% eftersom dess inkludering av EV på markbollar faktiskt är användbar för att förutsäga dubblar, eftersom hårt slagna markbollar kan hitta gräs i utmarken för dubblar. Till skillnad från HR/FB% innehåller ISO dubbel och tripplar.

utgångshastighet på flygbollar och Linjedrifter

därefter ville jag undersöka EV på FB/LD. Från början förväntade jag mig att EV på FB/LD skulle vara en av de bästa, om inte bäst, för att förutsäga HR/FB% och ISO. Och varför inte? Det är helt enkelt ett mått på hur snabbt en smet flugbollar och linjedrifter lämnar sin fladdermus. Ju snabbare de reser, desto mer sannolikt är de att bli hemlöpningar. Således bör metriska vara prediktiva för minst HR / FB%, vilket bara är ett mått på hur ofta flygbollar blir hemlöpningar.

min förväntan återspeglas delvis i r^2-värdena ovan. För en sak är 0.6175 ett starkt resultat. Särskilt i förhållande till vår kontrollmetrisk (hård%) och de andra Statcast-mätvärdena som vi hittills testat. Således kan du bekvämt titta på en hitter ’ s EV på FB/LD för att se om hans HR/FB% kommer att regressera.

fortfarande kan detsamma inte sägas som tillförlitligt för ISO. Anledningen är sannolikt att ISO: s nämnare inkluderar alla på fladdermöss och därför sveper i strejker och markbollar. Ändå är en r^2 av 0.5160 en bra påminnelse om att en hitter ’ s EV på FB/LD är viktig för både fantasy baseball och real-life baseball. Andrew Perpetua sa det bäst för två år sedan: Utgångshastighet trumps startvinkel.

Hard-Hit Rate

Jag har sett mycket diskussion kring HH% och dess värde som ett verktyg för att uppskatta en hitters kraftpotential. Jag var skeptisk eftersom HH%, som Genomsnittlig EV, loopar i alla slagbollstyper, inklusive markbollar.

som du kan se, med en r^2 av 0,5343, är HH% mer prediktiv för HR/FB% än hård%, Genomsnittlig LA och genomsnittlig EV men inte lika prediktiv för HR/FB% som EV på FB/LD. Det är ännu mindre förutsägbart för ISO än hård%.

Jag har hört påståendet att HH% är användbart eftersom om en hitter skulle göra en svängbyte och höja mer, skulle vi vilja veta vad som hände med de markbollar som nu blir flugbollar och linjedrifter, och HH% fångar EV på de markbollar. Min retort till det skulle vara att vi bara skulle titta på EV på FB / LD, eftersom det är en bättre representation av vad som skulle hända om de markbollar skulle bli till flugbollar eller linjedrifter. Detta återspeglas i regressionerna.

som sagt har jag också hört påståendet att HH% korrelerar starkt med xwOBA och xwOBAcon och kan därför vara ett bättre mått på en hitters sanna talang ur ett riktigt basebollperspektiv. Men det påståendet ligger utanför ramen för denna artikel.

Brls/BBE% & Brls/PA%

jag bestämde mig för att behandla Brls/BBE% och Brls/PA% i tandem eftersom de är liknande mätningar med något olika nämnare. Den förstnämnda betraktar bara fat på bollar i spel, medan den senare betraktar dem som en funktion av alla plattutseenden. Vilket är det bättre måttet på råkraft?

Från och med Brls/BBE% ser vi r^2 till både HR/FB% och ISO är mycket hög. Det är högre än något resultat vi har haft ännu. Som du kommer att se om en minut är det vår bästa enda metriska att förutsäga hur bra en hitter kan Muskler sina flygbollar ut ur parken, eller om hans HR/FB% kommer att regressera.

anledningen till att det är bättre än EV på FB / LD är att det bara fångar de bollar i spel som träffas så hårt att det är extremt troligt att bli hemlöpningar, medan EV på FB/LD är ett mått på genomsnittlig effekt och därför kan Skevas av outlier dåligt eller kraftfullt slå FB/LD.

således, som regressionen berättar för oss, desto mer kan en hitter producera bollar i spel på de perfekta La-och EV-kombinationerna (dvs Ju fler fat han producerar), desto mer sannolikt är han att spränga hemlöpningar. Och LA-bandet som anses av Brls/BBE% är snävt anpassat till de bästa kraftlanseringsvinklarna, så det sveper inte i alla flygbollar och linjedrifter som EV på FB / LD. Jag hatar att erkänna när jag har fel, men Brls/BBE% är mer prediktiv för både HR/FB% och ISO än EV på FB/LD.

detsamma gäller för Brls/PA%. Det är något mindre förutsägbart för HR/FB% eftersom det, till skillnad från Brls/BBE%, anser mer än bara bollar i spel, och HR / FB% är bara ett mått på kraft på flygbollar (en typ av boll i spel). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0,7269 0,70199
Brls/pa% 0,7071 0,7319

Efter att ha nått 50-bollen i spelstabiliseringspunkter är din bästa insats att titta på brls/bbe% för att se om en hitter hr/FB% är hållbar och brls/pa% för ISO. Kom ihåg att HR / FB% och ISO är de bästa utgångarna vi måste mäta en hitters kraftproduktion eftersom de eliminerar mycket av bruset (t. ex. promenader, foul outs, HBPs; strikeouts elimineras också från HR/FB%) av andra effektmätningar (t.ex. HR/XBH-totaler eller HR / PA%). Således är Brls/BBE% och Brls / PA% de bästa tillgängliga råeffektingångarna.

flera regressioner

med det sagt, ville jag kontrollera mitt arbete med flera regressioner. Med andra ord testar två eller flera oberoende variabler (t.ex. Genomsnittlig LA och genomsnittlig EV) mot en beroende variabel (t. ex. HR/FB%). Kanske var två Statcast-mätvärden tillsammans mer prediktiva för HR / FB% och ISO än de var individuellt.

till att börja med undersökte jag alla sex Statcast-mätvärdena tillsammans för att se deras kombinerade prediktiva effekt för HR/FB% och ISO. Det gav en r^2 av 0.7615 med HR/FB% och 0.7634 med ISO. Med andra ord, när de kombineras, förutspådde alla sex Statcast-mätvärdena cirka 76% av variansen i HR/FB% – och ISO-proverna.med tanke på att Brls/BBE% och Brls/PA% förutspådde cirka 73% av variansen i HR/FB% och ISO-prover, tillförde ingen annan Statcast-metrisk mycket prediktivt värde på egen hand. Till exempel, att lägga till genomsnittlig startvinkel till dessa två mätvärden pressade r^2 med HR/FB% och ISO upp till 0.7510 och 0.7578, respektive. Men det är verkligen inte mycket bättre. Ingen annan kombination av två Statcast-mätvärden rörde nålen även så högt.därför är Brls / BBE% och Brls / PA% kraftfulla mätvärden. De är ganska klibbiga år till år också. Om man tittar över resten av Statcast-topplistorna kan det faktiskt inte berätta något du inte skulle få från dem, och kan vara vilseledande. Att veta att vi ganska mycket bara behöver titta på Brls / BBE% för att förutsäga HR/FB%, låt oss sätta vad vi har lärt oss i praktiken.

några hitters vi kan identifiera vem som beror på HR / FB% förbättring inkluderar: Adalberto Mondesi (9,1 Tim / FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 Tim/FB%, 16,7 Brls/BBE%) och Freddie Freeman (5,6 Tim/FB%, 15,1 Brls/BB%). Några av de överraskande HR/ FB % – ledarna som jag tror har tjänat sina förhöjda HR/FB-priser inkluderar: Mitch Moreland (27.8 HR/FB%, 20.9 Brls/BBE%), Luke Voit (26.7 HR/FB%, 20.9 Brls/BBE%) och Yoan Moncada (22.7 HR/FB%, 19.2 Brls / BBE%).

Swing Changes och Statcast

slutligen ville jag undersöka vilken Statcast-metrisk som skulle vara mest användbar för att portending en power breakout baserat på en swing-förändring. Som vi just har lärt oss beror framgång i kraftavdelningen på bättre Brls/BBE% och Brls/PA% märken. Finns det ett sätt vi kan identifiera hitters som kan förbättra dem och i sin tur förbättra HR/FB% och ISO? Om så är fallet, vilka hitters skulle gynnas mest av en sådan förändring?

vi vet att FAT består av LA och EV. Endast den förra är verkligen inom en hitter kontroll. Visst, han kunde lägga på mer muskler och börja slå bollen hårdare. Men vi kan inte riktigt förutsäga det. Istället, om vi skulle anta att han kommer att höja mer, vilket är mer en fråga om medvetet val, då kommer han att lyckas efter att ha gjort det? Kanske gjorde en spelare ett uttalande till media att han avser att höja bollen. Skulle det verkligen gynna honom? För att svara på alla dessa frågor bestämde jag vilka icke-La Statcast-mätvärden som var mest prediktiva för Brls/BBE% och Brls/PA% AV, du gissade det, kör linjära och flera regressioner.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

i stället för att göra varje graf och avsevärt förlänga längden på den här artikeln bestämde jag mig för att bara sätta r^2-värdena i en omfattande tabell. Följaktligen kan du se att EV på FB / LD är den mest prediktiva av Brls/BBE% och Brls / PA%. Så mycket att lägga till i HH% eller genomsnittlig EV ger inget värde till provet och i vissa fall gör det faktiskt mindre prediktivt. Detta resultat gör mig också giddy eftersom EV på FB/LD inte bara är prediktiv, men det är också den klibbiga av våra Statcast-mätvärden. Det är ett bra sätt att hitta dina swing-change breakouts.

detta är mest värdefullt i det hypotetiska scenariot där en hitter behöll utmärkt EV på FB/LD, men har inte träffat många flugbollar och linjedrifter, vilket ger honom utrymme att förbättra. Men istället illustreras allt bäst med ett exempel.

ta Josh Bell, till exempel. Jag var ute på honom att gå in i säsongen, delvis, för att han inte höjde. Förra året var hans genomsnittliga LA 9 grader, och han slog bara 34,6% flygbollar och 41.7% markbollar, vilket begränsade hans Brls/BBE% till 7% (151st totalt av dem med 150 BBEs) och hans Brls / pa% till 4.8% (150th totalt). Detta var trots hans mycket bättre EV på FB / LD på 94,2 mph (84: e totalt). I år verkar det som om han gör en samlad insats för att höja, och med tanke på hans latenta kraft kan det stödja en breakout. Nu slår han 37,5% flygbollar och 41,7% markbollar till ett genomsnittligt LA på 12 grader. Bli inte förvånad om hans fathastigheter förblir förhöjda vid 14.6 Brls/BBE% och 10.3 Brls/PA% (och i sin tur kunde hans 16.7 HR/FB% och .276 ISO).

således, om vi vet vem som kommer att höja mer, kan vi enkelt skilja vete från agnarna. Det är inte genom att titta på deras HH% eller genomsnittliga EV; istället, ta bara en snabb blick på deras EV på FB/LD.

slutsats

Förhoppningsvis kommer folk att börja använda Statcast-mätvärden på lämpligt sätt. Om du ser en fantasy baseball analytiker citerar en hitter ’ s Hard%, HH% eller average EV för att föreslå en power breakout, kolla hans faträntor. Du vet att de är prediktiva för HR / FB% och ISO, och att de är klibbiga. Kontrollera sedan hans EV på FB / LD. Du vet att det kan portend mer i kraftavdelningen om han börjar höja, och att det kommer att hålla sig kvar också. Låt oss inte bara anta mätvärden som hård%, HH% eller genomsnittlig EV är bäst eftersom vi har tillgång till dem.

detta är bara början. I del II ska jag kontrollera det relativa värdet av Statcast-mätvärden mot BABIP. Håll ögonen öppna för mer.

Dagens bild av Justin Paradis (@freshmeatcomm på Twitter)