Articles

Ir fundo: O Valor Real de Statcast de Dados Parte I

Recentemente, eu escrevi sobre o uso adequado da ERA indicadores com base no seu valor preditivo em relação à luz do fato de que eu encontrei-me a usá-los sem uma compreensão mais profunda sobre o porquê. Acho que isto é algo que muitos jogadores casuais de basebol de Fantasia podem apreciar. Um amigo insulta um arremessador que você gosta baseado em uma época alta, então você corre para a sua página Fangraphs, encontrar o SIERA, xFIP, ou FIP (o que é mais baixo), e cuspi-lo de volta para o seu amigo. Pior ainda, você vai fazê-lo no Twitter no meio de uma discussão.eu, por exemplo, sou culpado disto.mas não são apenas indicadores de ERA. Também o fazemos com estatísticas. Em primeiro lugar, foi duro% da Baseball Info Solutions. Um jogador não está a cumprir as expectativas? Não tenha medo, seu % duro é astronômico!

A última moda na comunidade de fantasia é citar métricas de baseball Savant, que será o foco deste artigo. Primeiro, é importante entender de onde esses dados vêm:

Statcast é uma combinação de dois sistemas de rastreamento diferentes — um radar Doppler Trackman e câmeras de alta definição Chyron Hego. O radar, instalado em cada ballpark em uma posição elevada atrás da placa home … captura velocidade de passo, Velocidade de rotação, velocidade de saída de movimento de passo, ângulo de lançamento, distância de bola rebatida, força do braço, e muito mais. Separadamente, cada estádio também tem um sistema de câmera Chyron Hego, onde seis câmeras estereoscópicas são instaladas em dois bancos de três câmeras cada um ao longo da linha de falta. O sistema de câmera acompanha o movimento das pessoas no campo, o que permite a medição da velocidade do jogador, distância, direção e mais em cada jogo.

há muito para desempacotar lá, mas este não é um artigo sobre a precisão do radar Doppler ou sistema de câmera. Em vez disso, eu quero testar uma lista curada do Statcast mais popular batendo métricas, gerado a partir do radar e câmeras, para determinar quais são os mais preditivos do poder de um rebatedor.

para fazer essas determinações, vou regredir estas métricas contra HR / FB% e ISO. O primeiro é mais relevante a partir de uma perspectiva de fantasia baseball porque nós queremos saber se um rebatedor vai continuar batendo home runs. Inicialmente, eu considerei regredir as métricas de Statcast contra os totais de home run raw, mas eles não representam uma medida precisa do poder dos rebatedores, porque esses totais variam com base no número de aparições de placas de um rebatedor. De acordo com isso, eu considerei HR / PA%, mas isso varre em um monte de resultados de aparência de placa que não são influenciados por métricas de poder Statcast, tais como strikeouts e passeios. Eu finalmente aterrei em HR / FB%, como o metric só considera bolas em jogo, especificamente bolas de voar, e a maioria dos home runs vêm em bolas de voar de qualquer maneira.

ISO é mais útil a partir de uma perspectiva de beisebol real do que HR/FB%, uma vez que inclui duplos e triplos. A outra métrica que eu considerei foi SLG, mas ISO é melhor para medir o poder bruto de um jogador do que SLG porque exclui os singles. Como resultado, vou regredir as métricas do Statcast contra a ISO também.para as minhas análises, conduzi regressões lineares e múltiplas. Por “regressão”, quero dizer que encontrei o coeficiente de determinação, ou r^2, que mostra em que medida uma variável independente (por exemplo, ângulo de lançamento) explica a variação na amostra de uma variável dependente (por exemplo, HR/FB%). Quanto maior o r^2 (que estará sempre entre 0 e 1), maior a variável dependente prevê desvios na variável independente.

para a minha amostra, selecionei todos os jogadores com um mínimo de 150 batted-ball eventos (BBEs) em cada temporada de 2015-18. Primeiro, regredi cada ano métrico do Statcast ao longo do ano para ver quais eram “pegajosos” e em que grau. Em seguida, regredi métricas de transmissão por Estado contra HR / FB% e ISO. Finalmente, investiguei um pouco mais para te dar uma análise de bónus.vamos começar.

Definições

Para começar, devo oferecer alguns prático definições do Statcast glossário para as métricas vou testar para que você tenha um quadro de referência:

  • bola Bateu evento (BBE): representa qualquer bola bateu que produz um resultado. Isso inclui outs, hits e erros. Qualquer bola justa é um evento de bola rebatida. Assim, também, são bolas de falta que resultam em uma saída ou um erro.
  • velocidade de saída (EV): a velocidade de saída mede a velocidade da bola de beisebol como ela sai do taco, imediatamente após um batedor fazer contato. Isto é rastreado para todos os eventos da bola batted — outs, hits e erros.
  • ângulo de lançamento (LA): representa o ângulo vertical em que a bola deixa o taco de um jogador após ser atingida. O ângulo médio de lançamento é calculado dividindo a soma de todos os ângulos de lançamento por todos os eventos de bola rebatida.
  • taxa de sucesso (HH%): Statcast define uma “bola de sucesso” como uma batida com uma velocidade de saída de 95 mph ou mais, e a “taxa de sucesso” de um jogador está simplesmente mostrando a porcentagem de bolas batidas que foram batidas a 95 mph ou mais.barril: para ser barrado, uma esfera rebatida requer uma velocidade de saída de, pelo menos, 98 mph. A essa velocidade, bolas golpeadas com um ângulo de lançamento entre 26 e 30 graus sempre ganhando classificação barricada. Por cada carraça acima de 98 mph, o alcance dos ângulos de lançamento expande-se. A classificação do barril é atribuída a eventos de bolas rebatidas cujos tipos de rebatidas comparáveis (em termos de velocidade de saída e ângulo de lançamento) levaram a um mínimo .Média de 500 batidas e 1 500 porcentagem de batidas.

abaixo de I irá regredir média EV, média LA, e HH%. Além disso, vou examinar EV em bolas de mosca e drives de linha (EV em FB/LD), barris por evento de bola rebatida (Brls/BBE%), e barris por aparência de placa (Brls/PA%).

Stickiness anual-Over-Year-Over-Year

quão bem o HH% de um rebatedor, por exemplo, em um ano se traduz para o seguinte? Até que ponto podemos olhar para o EV de um rebatedor em FB/LD e dizer que ele vai parecer semelhante na temporada seguinte? A resposta a estas perguntas e mais estão abaixo.

Statcast Métrica 2015-18 r^2
Média de LA 0.6434
Média EV 0.61519
EV no FB/LD 0.6674
HH% 0.6185
Brls/BBE% 0.6344
Brls/PA% 0.5735

Há algumas conclusões podemos tirar a partir destes números. Primeiro, eles são todos bastante semelhantes, apenas variando entre 0,5735 e 0,6674. Sabemos que a previsibilidade anual é, portanto, relativamente forte para cada métrica. Em segundo lugar, EV on FB/LD em um ano irá explicar mais variação em EV sobre FB/LD no próximo do que qualquer outra métrica Statcast. É o” mais pegajoso ” de todos eles.

Third, though Brls / BBE% and Brls / PA% seem similar, they are actually quite different. Essas diferenças se refletem no fato de que o BRLs/BBE% é mais preditivo de si mesmo ao longo das estações. Brls / BBE% só considera barris em eventos de bola rebatida, enquanto Brls / PA% é responsável por barris como uma função de todas as aparências em placas. Como há significativamente mais resultados de aparência da placa do que apenas eventos de bola rebatida, não é surpreendente que Brls/PA% está sujeito a mais flutuação ao longo das estações. Se um rebatedor melhorar suas taxas de strikeout ou walk, seu Brls / PA% vai mudar no ano seguinte, enquanto seu Brls/BBE% não será afetado.

quarto, embora não refletido na tabela acima, cada uma dessas estatísticas estabiliza após cerca de 50 bolas em jogo. Sabemos isso através de uma grande pesquisa de Russel Carleton, que você pode ler aqui e aqui. Estas métricas são todas derivadas de la, EV e barris. Russel Carleton descobriu que estas três estatísticas estabilizam após 50 bolas em jogo (aproximadamente 18 jogos jogados).

Agora que sabemos o quão pegajosa cada métrica é, e quão rapidamente elas se estabilizam, sabemos o grau em que podemos estar confiantes empregando-as. É hora de regredir contra HR / FB% e ISO.

Hard%

First, I needed a control variable. Um pelo qual poderíamos comparar os resultados de nossas regressões para determinar o valor preditivo relativo das métricas de poder do Statcast. Fixei-me em Hard%, que é relatado nas páginas de jogadores de Fangraphs e recolhido pela Baseball Info Solutions. De acordo com Fangraphs:

Desde 2010, o vídeo scouts registrou a quantidade de tempo que a bola estava no ar, o lugar de destino, e o tipo de bola bateu (bola voar, terra de bola, forro, etc) e o BIS algoritmo determina se a bola foi suave, médio ou difícil de bater. Infelizmente, o algoritmo exato (os pontos de corte exatos/metodologia) é proprietário do BIS e não podemos compartilhar exatamente o que constitui contato duro, mas o cálculo é feito com base no tempo de espera, localização e trajetória geral.

durante anos, Hard% foi citado para determinar se um jogador irá manter os totais home run elevados. Assim, para a mesma amostra de rebatedores de 2015-18, regredi fortemente% contra HR/FB% e ISO para testar a veracidade dessa suposição.

Como pode ver, Hard% tem uma relação relativamente forte com HR/FB% e ISO. Lembre-se, estamos discernindo o coeficiente de determinação, que será menor que o coeficiente de correlação de Pearson (r). Dado o número de variáveis desconhecidas que afetam a HR / FB% ou ISO de um jogador (por exemplo, ballpark, ângulo de lançamento, qualidade do arremessador adversário, etc.), um r^2 de 0.44 ou 0.48 é bastante forte. Dito de forma diferente, 44% da variância em HR/FB%, por exemplo, é previsível a partir de Hard%.

ângulo de lançamento médio

agora que temos um grupo de controle, podemos medir a medida em que as métricas de Statcast são preditivas de nossas métricas de energia raw.

por um lado, vemos que, por si só, LA média não é preditiva de HR/FB% dado o r^2 de 0, 05852. Intuitivamente, isto faz sentido. Se um batedor eleva mais ou menos é irrelevante para se ele é capaz de Muscular suas bolas de mosca para fora do Parque. Tomando a raiz quadrada de 0,05 852 resulta num coeficiente de correlação de 0,2419 Pearson, o que significa que a média de LA e HR/FB% estão positivamente correlacionados a um grau. Isto também faz sentido. Rebatedores que elevam mais tendem a ser rebatedores de poder que têm a capacidade de criar home runs fora de suas bolas voadoras. Mas elevar-se por si só não causa mais home runs em bolas voadoras.por outro lado, o LA médio é mais preditivo do ISO. ISO é uma medida do total de rebatidas extra de base sobre o total de morcegos. Um rebatedor que eleva mais é mais provável que tenha uma maior porcentagem de seu total de at bats resulta em extra-base isso.

velocidade média de saída

EV média é uma história diferente. Eu esperava que fosse mais preditivo de HR / FB% e ISO como é uma medida da potência bruta de hitter, ao contrário de LA média, que é uma medida da abordagem de um hitter.

urpreendentemente, a minha expectativa é confirmada nas regressões. Com valores R^2 semelhantes a Hard%, o EV médio é tão útil para prever a potência bruta (medida por HR/FB% e ISO) como Hard%. Meu palpite é que a razão pela qual não é melhor do que Hard% é que, como Hard%, ele está medindo o EV de um rebatedor em bolas de chão, bem como bolas de mosca e drives de linha. Isto, por sua vez, é deprimente o valor preditivo da média EV como uma métrica de potência.

separadamente, é provável que o EV médio é provavelmente mais preditivo de ISO do que HR/FB%, porque sua inclusão de EV em bolas terrestres é realmente útil para predizer duplos, como bolas de chão duro pode encontrar grama no campo exterior para duplos. Ao contrário de HR / FB%, o ISO inclui duplos e triplos.

Exit Velocity on Fly Balls and Line Drives

Next, I wanted to examine EV on FB / LD. Desde o início, esperava que o EV em FB/LD fosse um dos melhores, se não o melhor, na previsão de HR / FB% e ISO. E porque não? É apenas uma medida de quão rápido as bolas voadoras de um batedor e os drives de linha deixam o seu taco. Quanto mais depressa viajarem, mais provável será que se tornem home runs. Assim, a métrica deve ser preditiva de pelo menos HR/FB%, que é apenas uma medida de quantas vezes bolas de mosca se tornam home runs.

minha expectativa é parcialmente refletida nos valores R^2 acima. Por um lado, 0,6175 é um resultado forte. Particularmente em relação à nossa métrica de controle (Hard%) e às outras métricas que testamos até agora. Assim, você pode olhar confortavelmente para o EV de um rebatedor em FB/LD para ver se seu HR / FB% vai regredir.ainda assim, o mesmo não pode ser dito de forma fiável para a ISO. A razão é provável que o denominador da ISO inclui todos OS at bats e, portanto, varre em strikeouts e bolas terrestres. Ainda assim, um r ^ 2 de 0.5160 é um bom lembrete de que o EV de um rebatedor no FB/LD é importante tanto para o beisebol de fantasia quanto para o beisebol da vida real. O Andrew Perpetua disse que era melhor há dois anos, a velocidade de saída supera o ângulo de lançamento.

Hard-Hit Rate

i’ve seen a lot of discussion around HH% and its value as a tool for estimating a hitter’s power potential. Eu estava céptico porque HH%, como média EV, loops em todos os tipos de bolas batidas, incluindo bolas de chão.

Como pode ver, com um r^2 de 0.5343, HH% é mais preditivo de HR/FB% do que Hard%, média LA, e média EV, mas não como preditivo de HR/FB% como EV em FB/LD. É ainda menos preditivo do ISO do que Hard%.

eu ouvi a alegação de que HH % é útil porque se um batedor fosse fazer uma mudança de balanço e elevar mais, nós gostaríamos de saber o que aconteceu com aquelas bolas de chão que agora estão se tornando bolas de mosca e drives de linha, e HH% captura o EV nessas bolas de chão. A minha resposta a isso seria que deveríamos apenas olhar para EV em FB/LD, porque é uma melhor representação do que aconteceria se essas bolas de chão se transformassem em bolas de mosca ou drives de linha. Isso se reflete nas regressões.dito isto, eu também ouvi a afirmação de que HH % correlaciona-se fortemente com xwOBA e xwOBAcon e pode, portanto, ser uma melhor medida do verdadeiro talento de um rebatedor a partir de uma perspectiva real de beisebol. Mas essa afirmação está fora do âmbito deste artigo.

Brls/BBE% & Brls/PA%

eu decidi tratar Brls/BBE% e Brls/PA% em tandem como eles são semelhantes medidas com um pouco diferentes denominadores. O primeiro apenas considera barris em bolas em jogo, enquanto o segundo considera-os como uma função de todas as aparições em placas. Qual é a melhor medida do poder bruto?

começando com Brls / BBE%, vemos o r^2 para HR / FB% e ISO é muito alto. É maior do que qualquer resultado que já tivemos. Como você verá em um minuto, é a nossa melhor única métrica para prever quão bem um batedor pode tirar suas bolas voadoras do parque, ou se seu HR/FB% vai regredir.

A razão pela qual ele é melhor do que EV em FB/LD é porque ele só captura as bolas em jogo que são atingidas de forma tão difícil a ponto de ser extremamente provável que se tornem home runs, enquanto EV em FB/LD é uma medida de poder médio e, portanto, pode ser distorcida por outlier mal ou poderosamente atingido FB/LD.

assim, como a regressão nos diz, quanto mais um rebatedor pode produzir bolas em jogo nas combinações perfeitas de LA e EV (isto é, quanto mais barris ele produz), mais provável ele é de explodir home runs. E a banda de LA considerada pela Brls / BBE% é estritamente adaptada para os melhores ângulos de lançamento de energia, por isso não está varrendo em todas as bolas de vôo e drives de linha como EV em FB/LD. Odeio admitir quando estou errado, mas Brls / BBE% é mais preditivo de HR/FB% e ISO do que EV em FB / LD.

The same goes for Brls / PA%. É um pouco menos preditivo de HR / FB % porque, ao contrário de Brls/BBE%, considera mais do que apenas bolas em jogo, e HR / FB% é apenas uma medida de poder em bolas voadoras (um tipo de bola em jogo). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0.7269 0.70199
Brls/PA% 0.7071 0.7319

Depois de chegar a 50 bola em jogo estabilização de pontos, a sua melhor aposta é a de olhar para Brls/BBE% para ver se um rebatedor de RH/FB% é sustentável, e Brls/PA% para ISO. Lembre – se, HR/FB% e ISO são as melhores saídas que temos para medir a produção de energia de um rebatedor porque eles eliminam grande parte do ruído (por exemplo, caminhadas, faltas, HBPs; os strikeouts também são eliminados de HR / FB%) de outras métricas de energia (por exemplo, HR/XBH totais ou HR/PA%). Assim, Brls / BBE% e Brls / PA% são as melhores entradas de energia bruta disponíveis.

múltiplas regressões

com tudo o que foi dito, eu queria verificar o meu trabalho com múltiplas regressões. Por outras palavras, testar duas ou mais variáveis independentes (por exemplo, média LA e média EV) contra uma variável dependente (por exemplo, HR/FB%). Talvez duas métricas Statcast juntas fossem mais preditivas de HR / FB% e ISO do que individualmente.

para começar, examinei todas as seis métricas Statcast juntas para ver seu efeito preditivo combinado para HR / FB% e ISO. Isso rendeu um r^2 de 0,7615 com HR / FB% e 0,7634 com ISO. Em outras palavras, quando combinados, todas as seis métricas Statcast previram cerca de 76% da variância nas amostras HR/FB% e ISO.

dado que Brls / BBE% e Brls/PA% previram cerca de 73% da variância em HR/FB% e amostras ISO, nenhuma outra métrica Statcast adicionou muito valor preditivo por si só. Por exemplo, adicionando ângulo de lançamento médio a estas duas métricas empurrou o r^2 com HR/FB% e ISO até 0.7510 e 0.7578, respectivamente. Mas isso não é muito melhor. Nenhuma outra combinação de duas métricas de transmissão de dados moveu a agulha mesmo assim tão alto.

portanto, Brls/ BBE % e Brls / PA% são métricas poderosas. Também são muito pegajosos de ano para ano. Olhando através do resto das tabelas de classificação do Statcast, na verdade, pode não dizer nada que você não obteria deles, e pode ser enganador. Sabendo que nós praticamente só precisamos olhar para Brls / BBE % para prever HR / FB%, vamos colocar o que aprendemos na prática.alguns batedores que podemos identificar que são devidos para a melhoria de HR / FB% incluem: Adalberto Mondesi (9,1 h/FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 h/FB%, 16,7 Brls/BBE%) e Freddie Freeman (5,6 h/FB%, 15,1 Brls / BB%). Alguns dos surpreendentes Líderes de HR/FB% que eu acredito ter ganho suas elevadas taxas de HR/FB incluem: Mitch Moreland (27,8 h/fb%, 20,9 Brls/BBE%), Luke Voit (26,7 h/fb%, 20,9 Brls/BBE%), e Yoan Moncada (22,7 h/FB%, 19,2 Brls/BBE%).

Swing Changes and Statcast

Finally, I wanted to examine which Statcast metric would be most useful for portending a power breakout based on a swing change. Como acabamos de saber, o sucesso no departamento de energia depende de melhores marcas Brls/BBE% e Brls/PA%. Há alguma forma de identificarmos os rebatedores que possam melhorar esses e, por sua vez, melhorar a HR/FB% e a ISO? Em caso afirmativo, que rebatedores beneficiariam mais de tal mudança?sabemos que os barris são compostos por LA e EV. Só o primeiro é que está sob o controlo de um batedor. Claro, ele podia pôr mais músculo e começar a bater com mais força na bola. Mas não podemos prever isso. Em vez disso, se assumirmos que ele vai elevar mais, o que é mais uma questão de escolha consciente, então ele será bem sucedido depois de fazer isso? Talvez um jogador fez uma declaração para a mídia que ele pretende elevar a bola. Isso iria beneficiá-lo? Para responder a todas essas perguntas, eu determinei quais métricas não-LA Statcast eram mais preditivas de Brls / BBE% e Brls / PA% por, você adivinhou, executando regressões lineares e múltiplas.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

em vez de fazer cada gráfico e alargar consideravelmente o comprimento deste artigo, decidi apenas colocar os valores R^2 numa tabela abrangente. Assim, você pode ver que o EV em FB / LD é o mais preditivo de Brls/BBE% e Brls / PA%. Tanto que a adição em HH % ou média EV não dá valor à amostra e, em alguns casos, torna-a menos preditiva. Este resultado me deixa tonto também porque EV em FB / LD não é apenas preditivo, mas também é o mais pegajoso de nossas métricas Statcast. É uma óptima maneira de encontrar os teus Despertadores.

Este é o mais valioso no cenário hipotético em que um rebatedor manteve excelente EV em FB/LD, mas não atingiu um monte de bolas de mosca e drives de linha, deixando-lhe espaço para melhorar. Mas em vez disso, tudo é melhor ilustrado por um exemplo.veja o Josh Bell, por exemplo. Eu estava fora para ele ir para a temporada, em parte, porque ele não estava elevando. No ano passado, a sua média de LA era de 9 graus, e ele atingiu apenas 34,6% de bolas voadoras e 41.7% de bolas terrestres, o que limitou seu Brls/BBE% a 7% (151º geral dos com 150 BBEs) e seu Brls/PA% a 4,8% (150º geral). Isso foi apesar de seu EV muito melhor em FB/LD de 94,2 mph (84º geral). Este ano, parece que ele está a fazer um esforço concertado para elevar, e dado o seu poder latente, pode suportar uma fuga. Ele está a atingir 37,5% de bolas voadoras e 41,7% de bolas terrestres a uma média de LA de 12 graus. Não se surpreenda se suas taxas de barril permanecem elevadas em 14,6 Brls / BBE % e 10,3 Brls / PA% (e, por sua vez, também poderia seu 16,7 h / FB% e .276 ISO).assim, se sabemos quem vai elevar mais, podemos facilmente separar o trigo do joio. Não é olhando para o seu HH% ou EV médio; em vez disso, basta dar uma olhada rápida em seu EV em FB / LD.

Conclusion

Esperemos que as pessoas comecem a usar métricas Statcast apropriadamente. Se vires um analista de basebol de fantasia a citar o % duro de um batedor, HH%, ou EV médio para sugerir uma fuga de energia, verifica as taxas dos barris. Sabes que são preditivos de HR / FB% e ISO, e que são pegajosos. Então, verifica o EV dele no FB / LD. Sabes que isso pode ser mais importante para o departamento de energia se ele começar a elevar-se, e que também vai ficar por aqui. Não vamos apenas assumir métricas como Hard%, HH%, ou EV média são melhores porque temos acesso a eles.isto é apenas o início. Na Parte II, Vou verificar o valor relativo das métricas de transmissão de dados com o BABIP. Fiquem sintonizados para mais.

imagem de Justin Paradis (@freshmeatcomm no Twitter)