Profundizando: El Valor Real de los Datos de Statcast Parte I
Recientemente escribí sobre el uso adecuado de los indicadores de ERA basados en su valor predictivo relativo a la luz del hecho de que me encontré usándolos sin una comprensión más profunda del por qué. Creo que esto es algo que muchos jugadores de béisbol de fantasía casual pueden apreciar. Un amigo insulta a un lanzador que te gusta basado en una ERA alta, por lo que corres a su página de Fangraphs, encuentras el SIERA, xFIP o FIP (el que sea más bajo) y se lo escupes a tu amigo. Peor aún, lo harás en Twitter en medio de una discusión.Yo, por mi parte, soy culpable de esto.
Pero no son solo indicadores de ERA. Hacemos esto con estadísticas de éxito también. Primero, fue difícil por parte de Baseball Info Solutions. ¿Un jugador no cumple con las expectativas? ¡No temas, su porcentaje duro es astronómico!
La última moda en la comunidad de fantasía es citar métricas de Statcast de Baseball Savant, que será el foco de este artículo. En primer lugar, es importante entender de dónde provienen esos datos:
Statcast es una combinación de dos sistemas de seguimiento diferentes: un radar Doppler Trackman y cámaras Chyron Hego de alta definición. El radar, instalado en cada estadio en una posición elevada detrás del plato de inicio, captura la velocidad de lanzamiento , la velocidad de giro, la velocidad de salida del movimiento de lanzamiento, el ángulo de lanzamiento, la distancia de la bola bateada, la fuerza del brazo y más. Por separado, cada estadio también tiene un sistema de cámara Chyron Hego, donde se instalan seis cámaras estereoscópicas en dos bancos de tres cámaras cada una en la línea de falta. El sistema de cámara rastrea el movimiento de las personas en el campo, lo que permite medir la velocidad, la distancia, la dirección y más del jugador en cada jugada.
Hay mucho que desempacar, pero este no es un artículo sobre la precisión del radar Doppler o el sistema de cámara. En su lugar, quiero probar una lista seleccionada de las métricas de bateo de Statcast más populares, generadas a partir del radar y las cámaras, para determinar cuáles son las más predictivas del poder de un bateador.
Para hacer esas determinaciones, regresaré estas métricas contra HR / FB% e ISO. Lo primero es más relevante desde una perspectiva de béisbol de fantasía porque queremos saber si un bateador continuará bateando jonrones. Inicialmente, consideré la regresión de las métricas de Statcast contra los totales de jonrones sin procesar, pero no representan una medida precisa del poder de los bateadores porque esos totales varían según el número de apariciones de plato del bateador. En consecuencia, consideré el porcentaje de HR / PA, pero eso barre muchos resultados de apariencia de placas que no están influenciados por las métricas de potencia de Statcast, como ponches y bases por bolas. Finalmente aterricé en HR / FB%, ya que esa métrica solo considera bolas en juego, específicamente bolas voladoras, y la mayoría de los jonrones vienen con bolas voladoras de todos modos.
ISO es más útil desde una perspectiva de béisbol real que HR / FB%, ya que incluye dobles y triples. La otra métrica que consideré fue SLG, pero la ISO es mejor para medir la potencia bruta de un jugador que la SLG porque excluye los sencillos. Como resultado, también compararé las métricas de Statcast con las ISO.
Para mis análisis, realicé regresiones lineales y múltiples. Por» regresión», quiero decir que encontré el coeficiente de determinación, o r^2, que muestra la medida en que una variable independiente (por ejemplo, ángulo de lanzamiento) explica la variación en la muestra de una variable dependiente (por ejemplo, HR/FB%). Cuanto mayor sea la r^2 (que siempre estará entre 0 y 1), mayor será la variable dependiente que predice desviaciones en la variable independiente.
Para mi muestra, seleccioné a todos los jugadores con un mínimo de 150 eventos de pelota bateada (BBE) en cada temporada de 2015 a 18. Primero, retrocedí cada métrica de Statcast año tras año para ver cuáles eran «pegajosas» y en qué grado. A continuación, regresé las métricas de Statcast contra HR / FB% e ISO. Finalmente, investigué un poco más para proporcionarte un análisis de bonificación.
Comencemos.
Definiciones
Para comenzar, debería proporcionar algunas definiciones útiles del glosario de Statcast para las métricas que probaré para que tenga un marco de referencia:
- Evento de bola bateada (BBE): representa cualquier bola bateada que produzca un resultado. Esto incluye salidas, visitas y errores. Cualquier pelota justa es un evento de pelota bateada. También lo son las bolas de falta que resultan en un out o un error.
- Velocidad de salida (EV): La velocidad de salida mide la velocidad de la pelota a medida que sale del bate, inmediatamente después de que un bateador hace contacto. Se realiza un seguimiento de todos los eventos de pelota bateada: outs, hits y errores.
- Ángulo de lanzamiento (LA): representa el ángulo vertical en el que la pelota sale del bate de un jugador después de ser golpeada. El ángulo de lanzamiento promedio se calcula dividiendo la suma de todos los ángulos de lanzamiento por todos los eventos de pelota bateada.
- Tasa de impacto fuerte (HH%): Statcast define una «bola de golpe duro» como un golpe con una velocidad de salida de 95 mph o superior, y la «tasa de golpe duro» de un jugador simplemente muestra el porcentaje de bolas bateadas que fueron golpeadas a 95 mph o más.
- Barril: Para ser barrido, una bola bateada requiere una velocidad de salida de al menos 98 mph. A esa velocidad, las bolas golpeadas con un ángulo de lanzamiento entre 26 y 30 grados siempre acumulan clasificación con cañón. Por cada tick de más de 98 mph, el rango de ángulos de lanzamiento se expande. La clasificación del cañón se asigna a los eventos de pelota bateada cuyos tipos de golpes comparables (en términos de velocidad de salida y ángulo de lanzamiento) han llevado a un mínimo .promedio de bateo de 500 y porcentaje de slugging de 1.500.
A continuación, regresaré el promedio de EV, el promedio de LA y el porcentaje de HH. Además, examinaré EV en bolas de mosca y unidades de línea (EV en FB/LD), barriles por evento de bola bateada (Brls/BBE%) y barriles por apariencia de placa (Brls/PA%).
Pegajosidad año tras año
¿Qué tan bien se traduce el% HH de un bateador, por ejemplo, en un año al siguiente? ¿Hasta qué punto podemos mirar el EV de un bateador en FB / LD y decir que se verá similar en la temporada siguiente? La respuesta a estas preguntas y más están a continuación.
Statcast Métrica | 2015-18 r^2 |
Promedio de LA | 0.6434 |
Promedio EV | 0.61519 |
EV en FB/LD | 0.6674 |
HH% | 0.6185 |
Brls/BBE% | 0.6344 |
Brls/PA% | 0.5735 |
Hay un par de conclusiones podemos extraer de estos números. En primer lugar, todos son bastante similares, solo oscilan entre 0,5735 y 0,6674. Sabemos que la capacidad de predicción de un año a otro es, en consecuencia, relativamente fuerte para cada métrica. En segundo lugar, EV en FB/LD en un año explicará más variación en EV en FB/LD en el próximo que cualquiera de las otras métricas de Statcast. Es el «más pegajoso» de todos.
Tercero, aunque Brls/ BBE% y Brls/PA % parecen similares, en realidad son bastante diferentes. Esas diferencias se reflejan en el hecho de que el% Brls/BBE es más predictivo de sí mismo a lo largo de las estaciones. Brls/ BBE % solo considera barriles en eventos de pelota bateada, mientras que Brls/PA % considera barriles en función de todas las apariencias del plato. Como hay significativamente más resultados de apariencia de plato que solo eventos de pelota bateada, no es de extrañar que el Brls/PA% esté sujeto a más fluctuaciones a lo largo de las estaciones. Si un bateador mejora su tasa de ponches o de bases por bolas, su% Brls/PA cambiará en el año siguiente, mientras que su% Brls/BBE no se verá afectado.
Cuarto, aunque no se refleja en la tabla anterior, cada una de esas estadísticas se estabiliza después de aproximadamente 50 bolas en juego. Sabemos esto por una gran investigación de Russel Carleton, que se puede leer aquí y aquí. Estas métricas de Statcast son todas derivaciones de LA, EV y Barrels. Russel Carleton encontró que estas tres estadísticas se estabilizan después de 50 bolas en juego (aproximadamente 18 partidos jugados).
Ahora que sabemos lo pegajosa que es cada métrica y lo rápido que se estabilizan, sabemos hasta qué punto podemos estar seguros de emplearlas. Es hora de retroceder contra HR/FB% e ISO.
Hard %
Primero, necesitaba una variable de control. Una por la que podríamos comparar los resultados de nuestras regresiones para determinar el valor predictivo relativo de las métricas de potencia de Statcast. Me conformé con el porcentaje duro, que se informa en las páginas de jugadores de Fangraphs y recopilado por Baseball Info Solutions. Según Fangraphs:
Desde 2010, los exploradores de video grabaron la cantidad de tiempo que la bola estuvo en el aire, el lugar de aterrizaje y el tipo de bola bateada (bola voladora, bola de tierra, trazador de líneas, etc.) y el algoritmo BIS determina si la bola fue golpe suave, medio o fuerte. Desafortunadamente, el algoritmo exacto (los puntos de corte/metodología exactos) son propiedad de BIS y no podemos compartir exactamente lo que constituye el contacto duro, pero el cálculo se realiza en función del tiempo de suspensión, la ubicación y la trayectoria general.
Durante años, se ha citado el porcentaje Duro para determinar si un jugador mantendrá un total de jonrones alto. Por lo tanto, para la misma muestra de bateadores de 2015-18, retrocedí el% Duro contra el% HR/FB y la ISO para probar la veracidad de esa suposición.
Como puede ver, el % duro tiene una relación relativamente fuerte con el % HR / FB y la ISO. Recuerde, estamos discerniendo el coeficiente de determinación, que va a ser menor que el coeficiente de correlación de Pearson (r). Dado el número de variables desconocidas que afectan al % HR / FB o ISO de un jugador (por ejemplo, estadio, ángulo de lanzamiento, calidad del lanzador contrario, etc.).), un r^2 de 0,44 o 0,48 es bastante fuerte. Dicho de otra manera, el 44% de la varianza en el% HR/FB, por ejemplo, es predecible desde el%Duro.
Ángulo de lanzamiento medio
Ahora que tenemos un grupo de control, podemos medir hasta qué punto las métricas de Statcast son predictivas de nuestras métricas de potencia bruta.
Por un lado, vemos que, por sí solo, la media de LA no es predictiva de HR/FB% dado el r^2 de 0,05852. Intuitivamente, esto tiene sentido. Si un bateador se eleva más o menos es irrelevante para si es capaz de sacar sus bolas de mosca del parque. Tomando la raíz cuadrada de 0.05852 se obtiene un coeficiente de correlación de Pearson de 0.2419, lo que significa que el promedio de AL y HR/FB% están correlacionados positivamente a un grado. Esto también tiene sentido. Los bateadores que elevan más tienden a ser bateadores poderosos que tienen la capacidad de crear jonrones con sus bolas voladoras. Pero elevarse por sí solo no causa más jonrones en pelotas voladoras.
Por otro lado, LA promedio es más predictivo de ISO. ISO es una medida del total de golpes de base extra sobre el total de turnos al bate. Un bateador que eleva más es más probable que tenga un mayor porcentaje de su total de turnos al bate como resultado de extra-base esto.
Velocidad media de salida
El EV medio es una historia diferente. Esperaba que fuera más predictivo de HR / FB% e ISO, ya que es una medida de la potencia bruta del bateador, en lugar de LA promedio, que es una medida del enfoque de un bateador.
como era de esperar, mi expectativa es confirmada en las regresiones. Con valores de r^2 similares al % Duro, el promedio de EV es casi tan útil para predecir la potencia bruta (medida por HR / FB% e ISO) como el%duro. Supongo que la razón por la que no es mejor que el% Duro es que, como el% Duro, mide el EV de un bateador en bolas de tierra, así como bolas de mosca y unidades de línea. Esto, a su vez, está deprimiendo el valor predictivo del promedio de EV como métrica de potencia.
Por separado, es probable que el EV promedio sea más predictivo de ISO que HR / FB% porque su inclusión de EV en las bolas de tierra es realmente útil para predecir dobles, ya que las bolas de tierra duramente golpeadas pueden encontrar césped en el campo para dobles. A diferencia de HR / FB%, ISO incluye dobles y triples.
Velocidad de salida en Bolas de Mosca y Unidades de línea
A continuación, quería examinar EV en FB / LD. Desde el principio, esperaba que EV en FB/LD fuera uno de los mejores, si no el mejor, en la predicción de HR / FB% e ISO. ¿Y por qué no? Es simplemente una medida de lo rápido que las bolas de mosca y los impulsos de línea de un bateador salen de su bate. Cuanto más rápido viajan, más probabilidades tienen de convertirse en jonrones. Por lo tanto, la métrica debe ser predictiva de al menos HR/FB%, que es solo una medida de la frecuencia con la que las bolas voladoras se convierten en jonrones.
Mi expectativa se refleja en parte en los valores de r^2 anteriores. Por un lado, 0.6175 es un resultado sólido. Particularmente en relación con nuestra métrica de control (Hard%) y las otras métricas de Statcast que hemos probado hasta ahora. Por lo tanto, puedes mirar cómodamente el EV de un bateador en FB/LD para ver si su% de HR/FB retrocederá.
Aún así, no se puede decir lo mismo de forma fiable para ISO. La razón es probable que el denominador de ISO incluya a todos los bates y, por lo tanto, barre en ponches y bolas de tierra. Aún así, un r^2 de 0.5160 es un buen recordatorio de que el EV de un bateador en FB/LD es importante tanto para el béisbol de fantasía como para el béisbol de la vida real. Andrew Perpetua lo dijo mejor hace dos años: la velocidad de salida supera el ángulo de lanzamiento.
Tasa de golpes duros
He visto mucha discusión sobre el HH% y su valor como herramienta para estimar el potencial de potencia de un bateador. Yo era escéptico porque el HH%, como el EV promedio, hace bucles en todos los tipos de bolas bateadas, incluidas las bolas de tierra.
Como puede ver, con un r^2 de 0,5343, el HH% es más predictivo de HR/FB% que el% Duro, LA media y el EV promedio, pero no es tan predictivo de HR/FB% como el EV en FB/LD. Es incluso menos predictivo de ISO que el % Duro.
He escuchado la afirmación de que HH% es útil porque si un bateador hiciera un cambio de swing y elevara más, querríamos saber qué pasó con esas bolas de tierra que ahora se están convirtiendo en bolas de mosca y unidades de línea, y HH% captura el EV en esas bolas de tierra. Mi respuesta a eso sería que deberíamos mirar el EV en FB/LD, porque es una mejor representación de lo que sucedería si esas bolas de tierra se convirtieran en bolas de mosca o unidades de línea. Esto se refleja en las regresiones.
Dicho esto, también he escuchado la afirmación de que el HH% se correlaciona fuertemente con xwOBA y xwOBAcon y, por lo tanto, puede ser una mejor medida del verdadero talento de un bateador desde una perspectiva real de béisbol. Pero esa afirmación está más allá del alcance de este artículo.
Brls/BBE% & Brls/PA%
decidí tratar Brls/BBE% y Brls/PA% en tándem como son medidas similares con un poco diferentes denominadores. El primero solo considera los barriles en las bolas en juego, mientras que el segundo los considera como una función de todas las apariencias del plato. ¿Cuál es la mejor medida de la potencia bruta?
Comenzando con Brls / BBE%, vemos que el r^2 tanto para HR / FB% como para ISO es muy alto. Es más alto que cualquier resultado que hayamos tenido hasta ahora. Como verás en un minuto, es nuestra mejor métrica única para predecir qué tan bien un bateador puede sacar sus bolas de mosca del parque, o si su% HR/FB retrocederá.
La razón por la que es mejor que el EV en FB/LD es porque solo captura aquellas bolas en juego que son golpeadas tan fuerte que es extremadamente probable que se conviertan en jonrones, mientras que el EV en FB/LD es una medida de potencia promedio y, por lo tanto, puede ser sesgado por un valor atípico mal o un golpe potente en FB/LD.
Por lo tanto, como nos dice la regresión, cuanto más pueda un bateador producir bolas en juego con las combinaciones perfectas de LA y EV (es decir, cuantos más barriles produzca), más probabilidades tendrá de hacer jonrones. Y la banda de LA considerada por Brls / BBE% se adapta estrechamente a los mejores ángulos de lanzamiento de potencia, por lo que no se extiende en todas las bolas de mosca y unidades de línea como EV en FB/LD. Odio admitir cuando me equivoco, pero Brls/BBE% es más predictivo de HR/FB% e ISO que EV en FB/LD.
lo mismo va para Brls/PA%. Es un poco menos predictivo del % HR / FB porque, a diferencia del% Brls/BBE, considera más que solo bolas en juego, y el% HR/FB es solo una medida de la potencia de las bolas voladoras (un tipo de bola en juego). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.
In sum, we have the following r^2 values:
Statcast Metric | HR/FB% | ISO |
Hard% | 0.4400 | 0.4807 |
Average LA | 0.0585 | 0.2706 |
Average EV | 0.4408 | 0.4056 |
EV on FB/LD | 0.6176 | 0.5160 |
HH% | 0.5343 | 0.4577 |
Brls/BBE% | 0.7269 | 0.70199 |
Brls/PA% | 0.7071 | 0.7319 |
Después de alcanzar el 50 balón en juego de estabilización de los puntos, su mejor apuesta es buscar en Brls/BBE% a ver si un bateador de recursos humanos/FB% es sostenible, y Brls/PA% para el ISO. Recuerde, HR / FB% e ISO son las mejores salidas que tenemos para medir la producción de energía de un bateador porque eliminan gran parte del ruido (por ejemplo, paseos, faltas, HBPs; los ponches también se eliminan del % HR / FB) de otras métricas de potencia (por ejemplo, totales HR/XBH o%HR/PA). Por lo tanto, el% Brls/BBE y el% Brls/PA son las mejores entradas de energía bruta disponibles.
Múltiples regresiones
Dicho todo esto, quería comprobar mi trabajo con múltiples regresiones. En otras palabras, probar dos o más variables independientes (por ejemplo, promedio de LA y promedio de EV) contra una variable dependiente (por ejemplo, HR / FB%). Quizás dos métricas de Statcast juntas eran más predictivas de HR / FB% e ISO de lo que eran individualmente.
Para comenzar, examiné las seis métricas de Statcast juntas para ver su efecto predictivo combinado para HR / FB% e ISO. Eso produjo un r^2 de 0,7615 con HR / FB% y 0,7634 con ISO. En otras palabras, cuando se combinan, las seis métricas de Statcast predijeron alrededor del 76% de la varianza en el% HR/FB y las muestras ISO.
Dado que el % Brls / BBE y el% Brls/PA predijeron aproximadamente el 73% de la varianza en el % HR/FB y las muestras ISO, ninguna otra métrica de Statcast agregó mucho valor predictivo por sí sola. Por ejemplo, al agregar el ángulo de lanzamiento promedio a estas dos métricas, el r^2 con HR/FB% e ISO aumentó a 0,7510 y 0.7578, respectivamente. Pero eso no es mucho mejor. Ninguna otra combinación de dos métricas de Statcast movió la aguja incluso tan alto.
Por lo tanto, Brls/BBE% y Brls/PA% son métricas poderosas. También son bastante pegajosas año tras año. Mirar el resto de las tablas de clasificación de Statcast en realidad puede no decirte nada que no obtendrías de ellas, y puede ser engañoso. Sabiendo que casi solo necesitamos mirar el % Brls/ BBE para predecir el % HR / FB, pongamos en práctica lo que hemos aprendido.
Algunos bateadores que podemos identificar que deben mejorar el% de FC/FC incluyen: Adalberto Mondesi (9,1 HR/FB%, 17,3 Brls/BBE%), Avisail García (11,8 HR/FB%, 16,7 Brls/BBE%) y Freddie Freeman (5,6 HR/FB%, 15,1 Brls/BB%). Algunos de los sorprendentes líderes de HR/FB% que creo que han ganado sus elevadas tasas de HR/FB incluyen: Mitch Moreland (27,8 HR/FB%, 20,9 Brls/BBE%), Luke Voit (26,7 HR/FB%, 20,9 Brls/BBE%) y Yoan Moncada (22,7 HR/FB%, 19,2 Brls/BBE%).
Cambios de Swing y Statcast
Finalmente, quería examinar qué métrica de Statcast sería más útil para augurar una ruptura de potencia basada en un cambio de swing. Como acabamos de aprender, el éxito en el departamento de energía depende de mejores marcas de% Brls/BBE y% Brls/PA. ¿Hay alguna forma de identificar a los bateadores que podrían mejorar en ellos y, a su vez, mejorar en HR/FB% e ISO? Si es así, ¿qué bateadores se beneficiarían más de tal cambio?
Sabemos que los barriles están compuestos de LA y EV. Solo el primero está realmente bajo el control de un bateador. Claro, podría ponerse más músculo y empezar a golpear la pelota más fuerte. Pero no podemos predecir eso. En cambio, si supusiéramos que va a elevar más, lo cual es más una cuestión de elección consciente, ¿tendrá éxito después de hacerlo? Tal vez un jugador hizo una declaración a los medios de comunicación que tiene la intención de elevar el balón. ¿Eso le beneficiaría? Para responder a todas estas preguntas, determiné qué métricas de Statcast no de LA eran más predictivas de Brls / BBE% y Brls / PA%, lo adivinó, ejecutando regresiones lineales y múltiples.
Statcast Metric | Brls/BBE% | Brls/PA% |
Average EV | 0.5374 | 0.5737 |
EV on FB/LD | 0.6936 | 0.7024 |
HH% | 0.6178 | 0.6447 |
HH% + EV on FB/LD | 0.6999 | 0.71226 |
EV on FB/LD + Average EV | 0.6186 | 0.6459 |
En lugar de hacer cada gráfico y ampliar considerablemente la longitud de este artículo, decidí poner los valores r^2 en una tabla completa. En consecuencia, puede ver que EV en FB / LD es el más predictivo de Brls / BBE% y Brls / PA%. Tanto es así que agregar HH % o EV promedio no le da valor a la muestra y, en algunos casos, en realidad la hace menos predictiva. Este resultado también me hace marear porque EV en FB / LD no solo es predictivo, sino que también es la métrica de Statcast más pegajosa. Es una gran manera de encontrar tus breakouts de cambio de swing.
Esto es más valioso en el escenario hipotético en el que un bateador mantuvo un excelente EV en FB / LD, pero no ha golpeado muchas bolas de mosca y unidades de línea, lo que le deja espacio para mejorar. Pero en cambio, todo se ilustra mejor con un ejemplo.
Tomemos a Josh Bell, por ejemplo. Estaba fuera de él al entrar en la temporada, en parte, porque no estaba elevando. El año pasado, su promedio de LA era de 9 grados, y solo bateó 34,6% de bolas voladoras y 41.7% de bolas de tierra, lo que limitó su Brls / BBE% a 7% (151 en total de aquellos con 150 BBEs) y su Brls/PA% a 4.8% (150 en total). Esto fue a pesar de su mucho mejor EV en FB / LD de 94,2 mph (84 en general). Este año, parece que está haciendo un esfuerzo concertado para elevarse, y dado su poder latente, podría apoyar una fuga. Ahora, está golpeando el 37,5% de las bolas voladoras y el 41,7% de las bolas de tierra a un promedio de 12 grados. No se sorprenda si sus tasas de barril se mantienen elevadas en 14,6 Brls / BBE% y 10,3 Brls / PA% (y, a su vez, también podría hacerlo su 16,7 HR/FB% y .276 ISO).
Por lo tanto, si sabemos quién va a elevar más, podemos separar fácilmente el trigo de la paja. No es mirando su HH % o EV promedio; en su lugar, solo eche un vistazo rápido a su EV en FB/LD.
Conclusión
Con suerte, las personas comenzarán a usar las métricas de Statcast de manera adecuada. Si ves a un analista de béisbol de fantasía que cita el % duro, el% HH o el EV promedio de un bateador para sugerir una ruptura de potencia, revisa sus tasas de barril. Sabes que predicen el % HR / FB e ISO, y que son pegajosos. Entonces, comprueba su EV en FB / LD. Sabes que podría presagiar más en el departamento de energía si comienza a elevarse, y que también se quedará. No asumamos que métricas como % duro, HH% o EV promedio son las mejores porque tenemos acceso a ellas.
Esto es solo el comienzo. En la Parte II, compararé el valor relativo de las métricas de Statcast con BABIP. Manténganse atentos para más información.
Imagen destacada de Justin Paradis (@freshmeatcomm en Twitter)