Articles

Going Deep: The Real Value of Statcast Data Part I

Recentemente ho scritto sull’uso corretto degli indicatori ERA in base al loro valore predittivo relativo alla luce del fatto che mi sono trovato ad usarli senza una comprensione più profonda del perché. Penso che questo sia qualcosa che molti giocatori di baseball fantasy casuali possono apprezzare. Un amico insulta un lanciatore che ti piace in base a un’ERA alta, quindi corri alla sua pagina Fangraphs, trova SIERA, xFIP o FIP (a seconda di quale è il più basso) e sputa di nuovo al tuo amico. Peggio ancora, lo farai su Twitter nel bel mezzo di una discussione.

Io, per esempio, sono colpevole di questo.

Ma non sono solo indicatori di ERA. Lo facciamo con colpire anche le statistiche. In primo luogo, è stato difficile% da Baseball Info Solutions. Un giocatore non sta eseguendo alle aspettative? Mai paura, il suo duro % è astronomico!

L’ultima moda nella comunità di fantasia è quello di citare metriche Statcast da Baseball Savant, che sarà al centro di questo articolo. Innanzitutto, è importante capire da dove provengono questi dati:

Statcast è una combinazione di due diversi sistemi di tracciamento — un radar Trackman Doppler e telecamere ad alta definizione Chyron Hego. Il radar, installato in ogni campo da baseball in una posizione elevata dietro casa piatto captures cattura passo velocità, velocità di rotazione, passo movimento velocità di uscita, angolo di lancio, palla battuta distanza, forza del braccio, e altro ancora. Separatamente, ogni ballpark ha anche un sistema di telecamere Chyron Hego, dove sei telecamere stereoscopiche sono installate in due banchi di tre telecamere a testa lungo la linea di fallo. Il sistema di telecamere traccia il movimento delle persone sul campo, che consente la misurazione della velocità del giocatore, della distanza, della direzione e di più su ogni gioco.

C’è molto da decomprimere lì, ma questo non è un articolo sulla precisione del radar Doppler o del sistema di telecamere. Invece, voglio testare un elenco curato delle metriche di colpire Statcast più popolari, generate dal radar e dalle telecamere, per determinare quali sono più predittivi della potenza di un battitore.

Per fare queste determinazioni, farò regredire queste metriche rispetto a HR/FB% e ISO. Il primo è più rilevante dal punto di vista del baseball fantasy perché vogliamo sapere se un battitore continuerà a colpire i fuoricampo. Inizialmente, ho considerato la regressione delle metriche Statcast rispetto ai totali di home run raw, ma non rappresentano una misura accurata della potenza dei battitori perché tali totali variano in base al numero di presenze di un battitore. Di conseguenza, ho considerato HR / PA%, ma che spazza in un sacco di risultati aspetto piatto che non sono influenzati dalle metriche di potenza Statcast, come strikeout e passeggiate. Alla fine sono atterrato su HR / FB%, poiché quella metrica considera solo le palle in gioco, in particolare le palle volanti, e la maggior parte dei fuoricampo arriva comunque sulle palle volanti.

ISO è più utile da una prospettiva di baseball reale di HR / FB%, in quanto include doppie e triple. L’altra metrica che ho considerato era SLG, ma ISO è migliore per misurare la potenza grezza di un giocatore rispetto a SLG perché esclude i single. Di conseguenza, farò regredire metriche Statcast contro ISO troppo.

Per le mie analisi, ho condotto regressioni lineari e multiple. Con” regressione”, intendo dire che ho trovato il coefficiente di determinazione, o r^2, che mostra la misura in cui una variabile indipendente (ad esempio, angolo di lancio) spiega la variazione nel campione di una variabile dipendente (ad esempio, HR/FB%). Maggiore è la r^2 (che sarà sempre compresa tra 0 e 1), maggiore è la variabile dipendente che predice le deviazioni nella variabile indipendente.

Per il mio campione, ho selezionato tutti i giocatori con un minimo di 150 eventi con palla battuta (BBE) in ogni stagione da 2015-18. In primo luogo, ho regredito ogni anno metrico Statcast su anno per vedere quali erano “appiccicosi” e in che misura. Successivamente, ho regredito metriche Statcast contro HR / FB % e ISO. Infine, ho fatto un po ‘ più di scavo per fornirti qualche analisi bonus.

Iniziamo.

Definizioni

Per iniziare, dovrei fornire alcune utili definizioni dal glossario Statcast per le metriche che testerò in modo da avere un quadro di riferimento:

  • Evento palla battuta (BBE): rappresenta qualsiasi palla battuta che produce un risultato. Questo include outs, hits ed errori. Qualsiasi palla fiera è un evento palla battuta. Così, anche, sono palle fallo che si traducono in un out o un errore.
  • Exit velocity (EV): Exit velocity misura la velocità del baseball mentre si stacca dalla mazza, immediatamente dopo che un battitore entra in contatto. Questo viene monitorato per tutti gli eventi palla battuta-out, colpi ed errori.
  • Angolo di lancio (LA): rappresenta l’angolo verticale con cui la palla lascia la mazza di un giocatore dopo essere stata colpita. L’angolo di lancio medio viene calcolato dividendo la somma di tutti gli angoli di lancio per tutti gli eventi con palla battuta.
  • Tasso di successo (HH%): Statcast definisce una ” palla hard-hit “come un colpo con una velocità di uscita di 95 mph o superiore, e il” tasso di hard-hit” di un giocatore sta semplicemente mostrando la percentuale di palle battute che sono state colpite a 95 mph o più.
  • Barile: Per essere canna, una palla battuta richiede una velocità di uscita di almeno 98 mph. A quella velocità, palle colpito con un angolo di lancio tra 26 e 30 gradi sempre garner classificazione canna. Per ogni tick oltre 98 mph, la gamma di angoli di lancio si espande. La classificazione della canna è assegnata agli eventi con palla battuta i cui tipi di colpi comparabili (in termini di velocità di uscita e angolo di lancio) hanno portato al minimo .500 media battuta e 1.500 slugging percentuale.

Sotto farò regredire EV media, LA media e HH%. Inoltre, esaminerò EV su palle volanti e unità di linea (EV su FB/LD), barili per evento palla battuta (Brls/BBE%), e barili per aspetto piastra (Brls/PA%).

Viscosità anno su anno

Quanto bene l’HH% di un battitore, ad esempio, in un anno si traduce in quello successivo? In che misura possiamo guardare l’EV di un battitore su FB / LD e dire che sarà simile nella prossima stagione? La risposta a queste domande e più sono sotto.

Statcast Metrica 2015-18 r^2
Media LA 0.6434
Media EV 0.61519
EV su FB/LD 0.6674
HH% 0.6185
Brls/BBE% 0.6344
Brls/PA% 0.5735

Ci sono alcune conclusioni che possiamo trarre da questi numeri. Innanzitutto, sono tutti abbastanza simili, solo tra 0,5735 e 0,6674. Sappiamo che la predittività anno per anno è, di conseguenza, relativamente forte per ogni metrica. In secondo luogo, EV su FB/LD in un anno spiegherà più variazioni di EV su FB/LD nel prossimo rispetto a qualsiasi altra metrica Statcast. E ‘ il “stickiest” di tutti.

Terzo, anche se Brls/BBE% e Brls / PA% sembrano simili, in realtà sono molto diversi. Queste differenze si riflettono nel fatto che Brls/BBE% è più predittivo di se stesso attraverso le stagioni. Brls/ BBE % considera solo barili su eventi batted-ball, mentre Brls/PA% rappresenta barili in funzione di tutte le apparenze piastra. Poiché ci sono significativamente più risultati aspetto piatto di eventi solo battuta-ball, non è sorprendente che Brls/PA% è soggetto a più fluttuazioni attraverso le stagioni. Se un battitore migliora i suoi tassi di strikeout o walk, il suo Brls/PA % cambierà nell’anno successivo, mentre il suo Brls/BBE% rimarrà inalterato.

Quarto, anche se non si riflette nella tabella sopra, ciascuna di queste statistiche si stabilizza dopo circa 50 palle in gioco. Lo sappiamo da qualche grande ricerca di Russel Carleton, che puoi leggere qui e qui. Queste metriche Statcast sono tutte derivazioni di LA, EV e Barrels. Russel Carleton ha scoperto che queste tre statistiche si stabilizzano dopo 50 palle in gioco (circa 18 partite giocate).

Ora che sappiamo quanto appiccicoso ogni metrica è, e quanto velocemente si stabilizzano, sappiamo il grado in cui possiamo essere sicuri di impiegarli. È tempo di regredirli contro HR / FB % e ISO.

Hard %

In primo luogo, avevo bisogno di una variabile di controllo. Uno con cui potremmo confrontare i risultati delle nostre regressioni per determinare il valore predittivo relativo delle metriche di potenza Statcast. Ho optato per Hard%, che è riportato sulle pagine dei giocatori Fangraphs e raccolti da Baseball Info Solutions. Secondo Fangraphs:

Dal 2010, i video scout hanno registrato la quantità di tempo in cui la palla era in aria, il punto di atterraggio e il tipo di palla battuta (fly ball, ground ball, liner, ecc.) Sfortunatamente, l’algoritmo esatto (i punti di taglio esatti/metodologia) sono proprietari di BIS e non possiamo condividere esattamente ciò che costituisce un contatto duro, ma il calcolo viene effettuato in base al tempo di blocco, alla posizione e alla traiettoria generale.

Per anni, Hard% è stato citato per determinare se un giocatore manterrà alti totali di home run. Quindi, per lo stesso campione di battitori da 2015-18, ho regredito Hard% contro HR/FB% e ISO per testare la veridicità di tale ipotesi.

Come puoi vedere, Hard% ha una relazione relativamente forte sia con HR / FB% che con ISO. Ricorda, stiamo discernendo il coefficiente di determinazione, che sarà inferiore al coefficiente di correlazione di Pearson (r). Dato il numero di variabili sconosciute che influenzano HR / FB % o ISO di un giocatore (ad esempio, ballpark, angolo di lancio, qualità del lanciatore avversario, ecc.), un r^2 di 0,44 o 0,48 è piuttosto forte. In altre parole, il 44% della varianza in HR/FB%, ad esempio, è prevedibile da Hard%.

Angolo di lancio medio

Ora che abbiamo un gruppo di controllo, possiamo misurare la misura in cui le metriche Statcast sono predittive delle nostre metriche di potenza grezza.

Da un lato, vediamo che, da solo, LA media non è predittiva di HR / FB% dato l’r^2 di 0.05852. Intuitivamente, questo ha senso. Se una pastella eleva più o meno è irrilevante se è in grado di muscolare le sue palle di mosca fuori dal parco. Prendendo la radice quadrata di 0,05852 si ottiene un coefficiente di correlazione di Pearson 0,2419, il che significa che LA media e HR/FB% sono positivamente correlati ad un grado. Anche questo ha senso. I battitori che elevano di più tendono ad essere battitori di potenza che hanno la capacità di creare corse a casa fuori dalle loro palle di mosca. Ma elevare da solo non causa più home run su palle volanti.

D’altra parte, LA media è più predittiva di ISO. ISO è una misura del totale colpi di base extra sul totale a pipistrelli. Un battitore che eleva di più è più probabile che abbia una percentuale maggiore del suo totale a pipistrelli risultato in extra-base questo.

Velocità media di uscita

EV media è una storia diversa. Mi aspettavo che fosse più predittivo di HR / FB % e ISO in quanto è una misura della potenza grezza del battitore, al contrario della media LA, che è una misura dell’approccio di un battitore.

Non sorprende che la mia aspettativa sia confermata nelle regressioni. Con valori r^2 simili a Hard%, EV medio è utile per prevedere la potenza grezza (misurata da HR / FB % e ISO) come Hard%. La mia ipotesi è che la ragione per cui non è migliore di Hard % sia che, come Hard%, sta misurando l’EV di un battitore su palle di terra, palle di volo e unità di linea. Questo, a sua volta, sta deprimendo il valore predittivo dell’EV medio come metrica di potenza.

Separatamente, è probabile che EV medio sia probabilmente più predittivo di ISO rispetto a HR / FB% perché la sua inclusione di EV sulle palle di terra è in realtà utile per predire i doppi, poiché le palle di terra duramente colpite possono trovare erba nell’outfield per i doppi. A differenza di HR / FB%, ISO include doppie e triple.

Velocità di uscita su palle volanti e unità di linea

Successivamente, volevo esaminare EV su FB / LD. Fin dall’inizio, mi aspettavo che EV su FB/LD fosse uno dei migliori, se non il migliore, nel predire HR/FB% e ISO. E perché no? È semplicemente una misura di quanto velocemente le palle di mosca di un battitore e le unità di linea lasciano la sua mazza. Più velocemente viaggiano, più è probabile che diventino fuoricampo. Pertanto, la metrica dovrebbe essere predittiva di almeno HR / FB%, che è solo una misura di quanto spesso le palle volanti diventano home run.

La mia aspettativa si riflette in parte nei valori r^2 sopra. Per prima cosa, 0.6175 è un risultato forte. In particolare rispetto alla nostra metrica di controllo (Hard%) e alle altre metriche Statcast che abbiamo testato finora. Quindi, puoi guardare comodamente l’EV di un battitore su FB / LD per vedere se il suo HR/FB% regredirà.

Tuttavia, lo stesso non può essere detto in modo affidabile per ISO. Il motivo è probabile che il denominatore di ISO include tutti i pipistrelli e quindi spazza in strikeout e palle di terra. Tuttavia, un r^2 di 0.5160 è un bel promemoria che l’EV di un battitore su FB/LD è importante sia per il baseball fantasy che per il baseball reale. Andrew Perpetua ha detto che meglio di due anni fa: velocità di uscita trionfi angolo di lancio.

Hard-Hit Rate

Ho visto molte discussioni su HH% e il suo valore come strumento per stimare il potenziale di potenza di un battitore. Ero scettico perché HH%, come EV media, loop in tutti i tipi di palla battuta, comprese le palle di terra.

Come puoi vedere, con un r^2 di 0.5343, HH% è più predittivo di HR/FB% rispetto a Hard%, average LA e average EV ma non così predittivo di HR/FB% come EV su FB / LD. È ancora meno predittivo di ISO rispetto a Hard%.

Ho sentito l’affermazione che HH % è utile perché se un battitore dovesse fare un cambio di swing ed elevare di più, vorremmo sapere cosa è successo a quelle palle di terra che ora stanno diventando palle volanti e unità di linea, e HH% cattura l’EV su quelle palle di terra. La mia replica a questo sarebbe che dovremmo solo guardare EV su FB / LD, perché è una migliore rappresentazione di ciò che accadrebbe se quelle palle di terra si trasformassero in palle volanti o unità di linea. Questo si riflette nelle regressioni.

Detto questo, ho anche sentito l’affermazione che HH% correla fortemente a xwOBA e xwOBAcon e potrebbe quindi essere una misura migliore del vero talento di un battitore da una vera prospettiva di baseball. Ma tale affermazione è oltre lo scopo di questo articolo.

Brls/BBE%& Brls/PA%

Ho deciso di trattare Brls/BBE% e Brls / PA% in tandem in quanto sono misurazioni simili con denominatori leggermente diversi. Il primo considera solo barili su palle in gioco, mentre il secondo li considera in funzione di tutte le apparenze piatto. Qual è la misura migliore della potenza grezza?

Iniziando con Brls/BBE%, vediamo che la r^2 sia per HR / FB% che per ISO è molto alta. È più alto di qualsiasi risultato che abbiamo ancora avuto. Come vedrai in un minuto, è la nostra migliore metrica singola per prevedere quanto bene un battitore può muscolare le sue palle volanti fuori dal parco, o se il suo HR/FB% regredirà.

La ragione per cui è meglio di EV su FB/LD è perché cattura solo quelle palle in gioco che vengono colpite così duramente da essere estremamente probabili diventare home run, mentre EV su FB/LD è una misura della potenza media e quindi può essere distorta da outlier male o colpire potentemente FB/LD.

Quindi, come ci dice la regressione, più un battitore può produrre palle in gioco alle combinazioni LA e EV perfette (cioè, più barili produce), più è probabile che faccia saltare i fuoricampo. E la banda LA considerata da Brls / BBE% è strettamente adattata ai migliori angoli di lancio di potenza, quindi non sta spazzando in tutte le palle di volo e le unità di linea come EV su FB/LD. Odio ammettere quando sbaglio, ma Brls / BBE% è più predittivo di HR / FB % e ISO rispetto a EV su FB / LD.

Lo stesso vale per Brls / PA%. È leggermente meno predittivo di HR / FB % perché, a differenza di Brls / BBE%, considera più di semplici palle in gioco, e HR/FB% è solo una misura della potenza sulle palle volanti (un tipo di palla in gioco). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0.7269 0.70199
Brls/PA% 0.7071 0.7319

Dopo aver raggiunto il 50 palla in gioco la stabilizzazione punti, la vostra scommessa migliore è quello di guardare Brls/BBE% per vedere se un battitore HR/FB% è sostenibile, e Brls/PA% per ISO. Ricorda, HR / FB % e ISO sono le migliori uscite che dobbiamo misurare la produzione di potenza di un battitore perché eliminano gran parte del rumore (ad esempio, passeggiate, foul out, HBPS; gli strikeout vengono eliminati anche da HR / FB%) di altre metriche di potenza (ad esempio, totali HR/XBH o HR/PA%). Pertanto, Brls / BBE % e Brls / PA % sono i migliori input di potenza grezzi disponibili.

Regressioni multiple

Detto questo, volevo controllare il mio lavoro con regressioni multiple. In altre parole, testare due o più variabili indipendenti (ad esempio, LA media e EV media) contro una variabile dipendente (ad esempio, HR/FB%). Forse due metriche Statcast insieme erano più predittive di HR / FB % e ISO di quanto non fossero individualmente.

Per iniziare, ho esaminato tutte e sei le metriche Statcast insieme per vedere il loro effetto predittivo combinato per HR / FB% e ISO. Ciò ha prodotto un r^2 di 0.7615 con HR/FB% e 0.7634 con ISO. In altre parole, se combinate, tutte e sei le metriche Statcast prevedevano circa il 76% della varianza nei campioni HR/FB% e ISO.

Dato che Brls/BBE% e Brls/PA% prevedevano circa il 73% della varianza nei campioni HR / FB% e ISO, nessun’altra metrica Statcast ha aggiunto molto valore predittivo da sola. Ad esempio, l’aggiunta dell’angolo di lancio medio a queste due metriche ha spinto r^2 con HR/FB% e ISO fino a 0,7510 e 0.7578, rispettivamente. Ma non è molto meglio. Nessun’altra combinazione di due metriche Statcast ha spostato l’ago anche così in alto.

Pertanto, Brls/BBE% e Brls / PA% sono potenti metriche. Sono anche piuttosto appiccicosi di anno in anno. Guardando attraverso il resto delle classifiche Statcast in realtà non può dire nulla che non otterrebbe da loro, e può essere fuorviante. Sapendo che abbiamo praticamente solo bisogno di guardare Brls / BBE% per prevedere HR / FB%, mettiamo in pratica ciò che abbiamo imparato.

Alcuni battitori che possiamo identificare che sono dovuti per il miglioramento HR / FB% includono: Adalberto Mondesi (9,1 HR/FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 HR/FB%, 16,7 Brls/BBE%) e Freddie Freeman (5,6 HR/FB%, 15,1 Brls/BB%). Alcuni dei sorprendenti leader HR/FB% che credo abbiano guadagnato i loro elevati tassi HR/FB includono: Mitch Moreland (27.8 HR/FB%, 20.9 Brls/BBE%), Luke Voit (26.7 HR/FB%, 20.9 Brls/BBE%) e Yoan Moncada (22.7 HR/FB%, 19.2 Brls/BBE%).

Swing Changes e Statcast

Infine, volevo esaminare quale metrica Statcast sarebbe più utile per far presagire un breakout di potenza basato su un cambiamento di swing. Come abbiamo appena appreso, il successo nel reparto potenza dipende da migliori Brls/BBE% e Brls / PA% marchi. C’è un modo per identificare i battitori che potrebbero migliorare su quelli e, a loro volta, migliorare su HR / FB% e ISO? Se è così, quali battitori trarrebbero maggior beneficio da un tale cambiamento?

Sappiamo che i barili sono composti da LA ed EV. Solo il primo è davvero sotto il controllo di un battitore. Certo, poteva mettere su più muscoli e iniziare a colpire la palla più forte. Ma non possiamo davvero prevederlo. Invece, se dovessimo supporre che eleverà di più, che è più una questione di scelta consapevole, allora avrà successo dopo averlo fatto? Forse un giocatore ha fatto una dichiarazione ai media che intende elevare la palla. Questo gli gioverebbe davvero? Per rispondere a tutte queste domande, ho determinato quali metriche Statcast non LA erano più predittive di Brls/BBE% e Brls/PA%, hai indovinato, eseguendo regressioni lineari e multiple.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

Invece di fare ogni grafico ed estendere considerevolmente la lunghezza di questo articolo, ho deciso di mettere solo i valori r^2 in una tabella completa. Di conseguenza, puoi vedere che EV su FB / LD è il più predittivo di Brls / BBE% e Brls / PA%. Tanto che l’aggiunta di HH % o EV medio non conferisce valore al campione e, in alcuni casi, lo rende meno predittivo. Questo risultato mi rende vertiginoso anche perché EV su FB / LD non è solo predittivo, ma è anche la più appiccicosa delle nostre metriche Statcast. È un ottimo modo per trovare i tuoi breakout di swing-change.

Questo è più prezioso nello scenario ipotetico in cui un battitore ha mantenuto un eccellente EV su FB/LD, ma non ha colpito molte palle di volo e unità di linea, lasciandogli spazio per migliorare. Ma invece, tutto è meglio illustrato da un esempio.

Prendi Josh Bell, per esempio. Ero fuori su di lui andando in stagione, in parte, perché non stava elevando. L’anno scorso, la sua media LA era 9 gradi, e ha colpito solo 34.6% palle volare e 41.7% palle di terra, che ha limitato il suo Brls / BBE% a 7% (151st complessiva di quelli con 150 BBEs) e il suo Brls/PA% a 4.8% (150th complessiva). Questo nonostante il suo EV molto migliore su FB / LD di 94.2 mph (84th overall). Quest’anno, sembra che stia facendo uno sforzo concertato per elevare, e dato il suo potere latente, potrebbe supportare un breakout. Ora, sta colpendo 37.5% palle di volo e 41.7% palle di terra ad una media LA di 12 gradi. Non stupitevi se i suoi tassi di barile rimangono elevati a 14.6 Brls / BBE% e 10.3 Brls / PA% (e, a sua volta, così potrebbe il suo 16.7 HR/FB% e .276 ISO).

Quindi, se sappiamo chi eleverà di più, possiamo facilmente separare il grano dalla pula. Non è guardando il loro HH % o EV medio; invece, basta dare una rapida occhiata al loro EV su FB/LD.

Conclusione

Si spera che le persone inizino a utilizzare le metriche Statcast in modo appropriato. Se vedi un analista di fantasy baseball citare un battitore duro%, HH% o EV medio per suggerire un breakout di potenza, controlla i suoi tassi di barile. Sai che sono predittivi di HR / FB % e ISO, e che sono appiccicosi. Quindi, controlla il suo EV su FB / LD. Sai che potrebbe far presagire di più nel reparto energia se inizia a elevarsi, e che rimarrà anche in giro. Non supponiamo che metriche come Hard%, HH% o EV media siano le migliori perché abbiamo accesso a loro.

Questo è solo l’inizio. Nella parte II, controllerò il valore relativo delle metriche Statcast rispetto a BABIP. Restate sintonizzati per più.

Immagine in primo piano di Justin Paradis (@freshmeatcomm su Twitter)