Articles

Jít Hluboko: Skutečná Hodnota Statcast Údaje Část I

Nedávno jsem psal o správné použití ÉRY ukazatelů na základě jejich relativní predikční hodnotu ve světle skutečnosti, že jsem se ocitl používat je bez hlubšího pochopení, proč. Myslím, že to je něco, co mnoho příležitostných hráčů fantasy baseballu může ocenit. Přítel urážky džbán se vám líbí na základě vysoké ÉRY, takže můžete spustit na jeho Fangraphs stránky, najít SIERA, xFIP, nebo FIP (podle toho, co je nejnižší), a pak to vyplivla na svého přítele. Ještě horší je, že to uděláte na Twitteru uprostřed hádky.

já jsem za to vinen.

ale nejsou to jen ukazatele éry. Děláme to i se statistikami. Za prvé, bylo to těžké% z Baseball Info Solutions. Hráč neplní očekávání? Nebojte se, jeho tvrdá práce je astronomická!

nejnovější výstřelek ve fantasy komunitě je citovat statcast metriky od Baseball Savant, který bude předmětem tohoto článku. Za prvé, je důležité pochopit, odkud tato data pocházejí:

Statcast je kombinací dvou různých sledovacích systémů-Trackman Dopplerova radaru a kamer Chyron Hego s vysokým rozlišením. Radar, instalovaný v každé hřiště ve zvýšené pozici za domácí metou … zachycuje pitch speed, rychlost rotace, rozteč pohybu výstupní rychlost, úhel odpalu, pálkoval míč vzdálenost, sílu paží, a další. Samostatně, každý ballpark má také kamerový systém Chyron Hego, kde je instalováno šest stereoskopických kamer ve dvou březích po třech kamerách za kus po faulové čáře. Kamerový systém sleduje pohyb lidí na hřišti, což umožňuje měření rychlosti hráče, vzdálenost, směr, a více na každé hře.

je toho hodně k rozbalení, ale toto není článek o přesnosti dopplerovského radaru nebo kamerového systému. Místo toho, chci, aby test sestaveného seznamu nejvíce populární Statcast bít metriky, plynoucí z radaru a kamery, zjistit, které jsou nejvíce prediktivní hitter power.

Chcete – li provést tato stanovení, budu regresovat tyto metriky proti HR / FB% a ISO. První z nich je relevantnější z hlediska fantasy baseballu, protože chceme vědět, zda hitter bude i nadále bít homeruny. Zpočátku jsem se domníval, regrese Statcast metriky proti syrové home run součty, ale nemají představovat přesné měření váhy se moc, protože tyto součty se liší v závislosti na pálkař je číslo desky vystoupení. Proto jsem považoval HR / PA%, ale to zametá v mnoha výsledcích vzhledu desek, které nejsou ovlivněny metrikami výkonu Statcast, jako jsou strikeouts a procházky. Nakonec jsem přistál na HR / FB%, protože tato metrika považuje pouze míče ve hře, konkrétně létat míče, a většina homerunů stejně přichází na mušky.

ISO je z reálného baseballového hlediska užitečnější než HR / FB%, protože zahrnuje čtyřhru a trojnásobek. Druhou metrikou, kterou jsem považoval za SLG, ale ISO je lepší pro měření surového výkonu hráče než SLG, protože vylučuje nezadaní. Jako výsledek, budu regresovat statcast metriky proti ISO příliš.

pro své analýzy jsem provedl lineární a vícenásobné regrese. „Regrese“ myslím, že jsem našel koeficient určení, nebo r^2, což ukazuje, do jaké míry nezávislé proměnné (např., spustit úhel) vysvětluje rozdíly ve vzorku závislé proměnné (např. HR/FB%). Čím vyšší je r^2 (který bude vždy mezi 0 a 1), tím větší závislá proměnná předpovídá odchylky v nezávislé proměnné.

Pro můj vzorek jsem vybral všechny hráče s minimálně 150 pálkoval míč události (BBEs) v každé sezóně od 2015-18. Za prvé, každý statcast metrický rok jsem regresoval, abych zjistil, které jsou „lepkavé“ a do jaké míry. Dále jsem regresoval statcast metriky proti HR / FB% a ISO. Nakonec jsem udělal trochu víc kopání, abych vám poskytl nějakou bonusovou analýzu.

začněme.

Definice

Chcete-li začít, jsem měl poskytnout některé užitečné definice z Statcast slovník pro metriky, budu to testovat, takže budete mít referenční rámec:

  • Pálkoval míč události (BBE): představuje nějaké odrazil míč, který produkuje výsledek. To zahrnuje výstupy, hity a chyby. Každá spravedlivá koule je událost s pálkou. Tak, také, jsou faul míče, které mají za následek out nebo chyba.
  • výstupní rychlost (EV): výstupní rychlost měří rychlost baseballu, když vychází z pálky, ihned po kontaktu těsta. To je sledováno pro všechny pálkované míč události-outs, hity a chyby.
  • Launch angle (LA): představuje svislý úhel, při kterém míč opouští hráčovu pálku poté, co byl zasažen. Průměrný úhel startu se vypočítá vydělením součtu všech úhlů startu všemi událostmi odpalovaného míče.
  • míra tvrdých zásahů (HH%): Statcast definuje „hard-hit koule“ jako jeden hit, s výstupní rychlostí 95 km / h nebo vyšší, a hráč je „hard-hit sazba“ je jednoduše ukazuje procento odpaly, které byly hitem na 95 km / h nebo více.
  • hlaveň: k hlavni vyžaduje odpalovaná koule výstupní rychlost alespoň 98 mph. Při této rychlosti se míče s odpalovacím úhlem mezi 26 a 30 stupni vždy sbírají. Pro každé klíště přes 98 mph, rozsah odpalovacích úhlů se rozšiřuje. Klasifikace hlavně je přiřazena k událostem s odpalovaným míčem, jejichž srovnatelné typy zásahů (z hlediska výstupní rychlosti a úhlu odpalu) vedly k minimu .500 odpalování průměr a 1.500 slugging procento.

níže budu regresovat průměrný EV, průměrný LA a HH%. Kromě toho, budu zkoumat EV na létat koule a linky pohony (EV na FB/LD), barelů za pálkoval míč události (Brls/BBE%), a barelů za desku vzhled (Brls/PA%).

rok-Přes-Rok Lepivost

Jak dobře se pálkař je HH%, například, v jednom roce přeložit na další? Do jaké míry se můžeme podívat na hitterův EV na FB / LD a říci, že to bude vypadat podobně v následující sezóně? Odpověď na tyto otázky a další jsou níže.

Statcast Metrické 2015-18 r^2
Průměr LA 0.6434
Průměr EV 0.61519
EV na FB/LD 0.6674
HH% 0.6185
Brls/BBE% 0.6344
Brls/PA% 0.5735

Existuje několik závěry můžeme vyvodit z těchto čísel. Za prvé, všechny jsou docela podobné, pouze v rozmezí mezi 0.5735 a 0.6674. Víme, že meziroční predikce je tedy pro každou metriku relativně silná. Za druhé, EV na FB / LD v jednom roce vysvětlí více variací EV na FB / LD v příštím než kterákoli jiná metrika Statcast. Je to „nejlepší“ ze všech.

Zatřetí, i když se Brls / BBE% a Brls/PA% zdají podobné, jsou ve skutečnosti docela odlišné. Tyto rozdíly se odrážejí ve skutečnosti, že Brls / BBE% je více prediktivní pro jednotlivé roční období. Brls/BBE% jen za sudy na pálkoval míč události, zatímco Brls/PA% účty pro sudy jako funkce všech deska vystoupení. Jak tam jsou podstatně větší talíř vzhled výsledků, než jen pálkoval míč události, to není překvapující, že Brls/PA% vztahuje více kolísání v rámci ročních období. Je-li hitter zlepšuje na jeho strikeout nebo chůze sazeb, jeho Brls/PA% se změní v následujícím roce, zatímco jeho Brls/BBE% zůstane nedotčena.

čtvrtý, i když se to neodráží v tabulce výše, každá z těchto statistik se stabilizuje po asi 50 míčích ve hře. Víme to z nějakého velkého výzkumu Russela Carletona, který si můžete přečíst zde a zde. Tyto statcast metriky jsou všechny derivace LA, EV, a sudy. Russel Carleton zjistil, že tyto tři statistiky se stabilizují po 50 míčích ve hře(přibližně 18 odehraných her).

Nyní, když víme, jak lepkavá je každá metrika a jak rychle se stabilizují, víme, do jaké míry si můžeme být jisti, že je zaměstnáváme. Je čas je regresovat proti HR / FB% a ISO.

Hard%

Nejprve jsem potřeboval řídicí proměnnou. Jeden, kterým bychom mohli porovnat výsledky našich regresí a určit relativní prediktivní hodnotu metrik výkonu Statcast. Usadil jsem se na Hard%, který je hlášen na stránkách Fangraphs hráče a shromažďovány Baseball Info Solutions. Podle Fangraphs:

Od roku 2010, video skauti zaznamenali množství času míč byl ve vzduchu, místo přistání, a typ odrazil míč (míč, míček, vložky, atd.) a BIS algoritmus určuje, zda míč byl měkký, střední nebo tvrdý hit. Bohužel, přesný algoritmus (přesný řez body/metodika), jsou vlastnictvím BIS a nemůžeme sdílet přesně to, co představuje pevný kontakt, ale výpočet se provádí na základě pověsit čas, místo, a obecné trajektorii.

po celá léta, Hard% byl citován určit, zda hráč bude udržovat vysoké homerun součty. Takže pro stejný vzorek hitters od 2015-18, jsem ustoupila Tvrdě% proti HR/FB% a ISO vyzkoušet pravdivost tohoto předpokladu.

Jak vidíte, Hard% má relativně silný vztah jak s HR / FB% , tak s ISO. Pamatujte, že rozlišujeme koeficient určení, který bude nižší než Pearsonův korelační koeficient (r). Vzhledem k počtu neznámých proměnných, které ovlivňují HR/FB% nebo ISO hráče (např.), R^2 0,44 nebo 0,48 je poměrně silná. Jinak řečeno, 44% rozptylu v HR / FB% je například předvídatelné od Hard%.

Průměrný Zahájení Úhel,

Nyní, že máme kontrolní skupinu, můžeme měřit, do jaké míry Statcast metriky jsou prediktivní naší hrubé síly metriky.

Na jedné straně vidíme, že, na jeho vlastní, průměrná LA není prediktivní HR/FB% vzhledem k r^2 0.05852. Intuitivně to dává smysl. Zda se pálkař více či méně zvedá, je irelevantní pro to, zda je schopen svalovat své mouchy z parku. Odmocníme 0.05852 výnosy 0.2419 Pearsonův korelační koeficient, což znamená, že průměrná LA a HR/FB% jsou pozitivně koreluje s mírou. To také dává smysl. Hitters, kteří povýšit více mají tendenci být power hitters, kteří mají schopnost vytvářet domácí běží z jejich mouchy koule. Ale zvedání samo o sobě nezpůsobuje více homerunů na létajících míčích.

na druhé straně je průměrná LA prediktivní pro ISO. ISO je měřítkem celkových extra základních zásahů nad celkem u netopýrů. Hitter, který zvyšuje více, je pravděpodobnější, že bude mít větší procento svého celkového počtu u netopýrů, což má za následek extra základnu.

Průměrná výstupní rychlost

Průměrná EV je jiný příběh. Čekal jsem, že bude více prediktivní HR/FB% a ISO jako to je opatření, pálkař je syrové moci, na rozdíl od průměrné LA, který je měřítkem hitter přístup.

není překvapením, že moje očekávání je potvrzeno v regresích. S podobnými hodnotami r^2 jako Hard% je průměrná EV asi tak užitečná pro předpovídání surového výkonu (měřeno HR/ FB % a ISO) jako Hard%. Můj odhad je důvod, proč je to lepší než Tvrdý% je, že stejně jako Tvrdý%, je měření hitter je EV na zem koule, stejně jako létat koule a linky disky. To zase snižuje prediktivní hodnotu průměrného EV jako výkonové metriky.

Samostatně, je pravděpodobné, že průměrný EV je pravděpodobné, že více prediktivní ISO než HR/FB%, protože jeho zařazení EV na zem koule je ve skutečnosti užitečné pro predikci čtyřhře, jako hard-hit zem koule můžete najít trávy na hřiště pro čtyřhru. Na rozdíl od HR/FB% obsahuje ISO čtyřhru a trojnásobek.

Exit Velocity on Fly Balls and Line Drives

dále jsem chtěl prozkoumat EV na FB / LD. Od začátku jsem očekával, že EV na FB / LD bude jedním z nejlepších, ne-li nejlepších, při předpovídání HR/FB% a ISO. A proč ne? Je to prostě míra toho, jak rychle létají míče a pohony těsta, které opouštějí jeho pálku. Čím rychleji cestují, tím je pravděpodobnější, že se stanou homeruny. Metrika by tedy měla být prediktivní alespoň HR / FB%, což je jen míra toho, jak často se létající koule stávají homeruny.

moje očekávání se částečně odráží ve výše uvedených hodnotách r^2. Za prvé, 0,6175 je silný výsledek. Zejména ve vztahu k naší kontrolní metrice (Hard%) a dalším metrikám Statcast, které jsme dosud testovali. Můžete se tedy pohodlně podívat na EV hittera na FB / LD, abyste zjistili, zda jeho HR / FB% ustoupí.

totéž však nelze říci jako spolehlivě pro ISO. Důvodem je pravděpodobné, že jmenovatel ISO zahrnuje všechny netopýry, a proto zametá v úderech a míčích. Přesto je r^2 0.5160 pěknou připomínkou, že hitterův EV na FB / LD je důležitý jak pro fantasy baseball, tak pro real-life baseball. Andrew Perpetua to řekl nejlépe před dvěma lety: výstupní rychlost přebíjí úhel startu.

Hard-Hit Sazba

viděl jsem mnoho diskusí kolem HH% a jeho hodnota jako nástroj pro odhad hitter power potenciál. Byl jsem skeptický, protože HH%, jako průměrný EV, smyčky ve všech typech pálkovaných míčů, včetně pozemních míčů.

Jak můžete vidět, s r^2 0.5343, HH% je více prediktivní HR/FB% než Tvrdě%, průměrná LA, a průměrný EV, ale ne jako prediktivní HR/FB% EV na FB/LD. Je to ještě méně prediktivní ISO než Hard%.

slyšel jsem tvrzení, že HH% je užitečné, protože pokud pálkař byl, aby se houpačka změnit a pozvednout víc, bychom chtěli vědět, co se stalo těm, mleté kuličky, které jsou nyní stává létat koule a linky jezdí, a HH% zachycuje EV na ty, zem koule. Moje odpověď na to by jsme se měli dívat jen na EV na FB/LD, protože to je lepší vyjádření toho, co by se stalo, byly tyto země koule proměnit létat koule nebo řádku disky. To se odráží v regresích.

To řekl, také jsem slyšel tvrzení, že HH% koreluje silně xwOBA a xwOBAcon, a proto může být lepší opatření hitter je pravda, talent od skutečné baseball pohledu. Toto tvrzení je však nad rámec tohoto článku.

Brls/BBE% & Brls/PA%

jsem se rozhodl k léčbě Brls/BBE% a Brls/PA% v tandemu, jak jsou podobné měření s mírně různé jmenovatele. Bývalý jen domnívá, sudy na koule ve hře, zatímco druhý je považuje za funkci všech deska vystoupení. Která je lepší míra surové energie?

počínaje brls / BBE% vidíme r^2 Jak HR / FB% , tak ISO je velmi vysoká. Je to vyšší než jakýkoli výsledek, který jsme dosud měli. Jak uvidíte za chvíli, to je naše nejlepší jediný metrický, aby se předpovědět, jak dobře pálkař může svalové jeho létají koule z parku, nebo zda jeho HR/FB% bude vracet.

důvod, proč je to lepší, než EV na FB/LD je proto, že zachycuje pouze ty koule ve hře, které jsou hit tak těžké, jak se být velmi pravděpodobné, aby se stal domácí běží, vzhledem k tomu, že EV na FB/LD je měřítkem průměrný výkon, a proto může být zkreslený tím, že outlier špatně, nebo mocně zasáhla FB/LD.

tak, jak nám říká regrese, čím více může hitter produkovat míče ve hře v dokonalých kombinacích LA A EV (tj. A LA kapela považována za Brls/BBE% je úzce přizpůsoben pro nejlepší výkon spuštění úhlů, takže to není zametání ve všech létat koule a linky jezdí jako EV na FB/LD. Nerad přiznávám, když se mýlím, ale Brls / BBE% je prediktivní jak pro HR/ FB%, tak pro ISO než EV na FB / LD.

totéž platí pro Brls / PA%. To je o něco méně prediktivní HR/FB%, protože, na rozdíl od Brls/BBE%, považuje za více než jen koule ve hře, a HR/FB% je jen měřítkem výkonu na běhu koulí (typ míč ve hře). And it’s more predictive of ISO because, unlike Brls/BBE%, it considers strikeouts, and ISO does too.

In sum, we have the following r^2 values:

Statcast Metric HR/FB% ISO
Hard% 0.4400 0.4807
Average LA 0.0585 0.2706
Average EV 0.4408 0.4056
EV on FB/LD 0.6176 0.5160
HH% 0.5343 0.4577
Brls/BBE% 0.7269 0.70199
Brls/PA% 0.7071 0.7319

Po dosažení 50 míč ve hře stabilizace bodů, vaše nejlepší sázka je podívat se na Brls/BBE% vidět pokud pálkař je HR/FB% je udržitelný, a Brls/PA% pro ISO. Pamatujte, že HR / FB% a ISO jsou nejlepší výstupy, které musíme měřit produkci energie hitteru, protože eliminují velkou část šumu (např.; strikeouts jsou také eliminovány z HR / FB%) jiných výkonových metrik (např. HR / xbh součty nebo HR / PA%). Brls / BBE% a Brls / PA% jsou tedy nejlepšími dostupnými surovými napájecími vstupy.

více regresí

s tím vším jsem chtěl zkontrolovat svou práci s více regresemi. Jinými slovy, testování dvou nebo více nezávislých proměnných (např. průměrná LA a průměrná EV) proti jedné závislé proměnné (např. HR / FB%). Možná dvě metriky Statcast společně predikovaly HR / FB% a ISO více než jednotlivě.

Nejprve jsem zkoumal všech šest statcast metrik dohromady, abych viděl jejich kombinovaný prediktivní efekt pro HR / FB% a ISO. To přineslo r^2 0,7615 s HR / FB% a 0,7634 s ISO. Jinými slovy, při kombinaci všech šest metrik Statcast předpovídalo přibližně 76% rozptylu ve vzorcích HR/FB% a ISO.

Vzhledem k tomu, že Brls/BBE% a Brls/PA% předpověděl o 73% rozptylu v HR/FB% a ISO vzorky, žádné jiné Statcast metrické přidáno mnohem prediktivní hodnotu na jeho vlastní. Například přidání průměrného úhlu spuštění k těmto dvěma metrikám posunulo R^2 s HR / FB% a ISO až na 0,7510 a 0.Respektive 7578. Ale to opravdu není o moc lepší. Žádná jiná kombinace dvou statcastových metrik nepohybovala jehlou ani tak vysoko.

proto jsou brls/BBE% a Brls / PA% výkonnými metrikami. I ty jsou rok od roku dost lepkavé. Při pohledu na zbytek žebříčků Statcast vám ve skutečnosti nemusí říct nic, co byste od nich nedostali, a může být zavádějící. S vědomím, že se do značné míry musíme podívat na Brls/BBE%, abychom předpovídali HR/FB%, pojďme dát to, co jsme se naučili, do praxe.

mezi několik hitterů, které můžeme identifikovat, kteří jsou splatní za zlepšení HR / FB%, patří: Adalberto Mondesi (9,1 hod/FB%, 17,3 Brls/BBE%), Avisail Garcia (11,8 hod/FB%, 16,7 Brls/BB%) a Freddie Freeman (5,6 hod/FB%, 15,1 Brls/BB%). Některé překvapivé HR/FB% vůdců, že věřím, že si získal jejich zvýšené HR/FB ceny zahrnují: Mitch Moreland (27.8 HR/FB%, 20.9 Brls/BBE%), Lukáš Voight (26.7 HR/FB%, 20.9 Brls/BBE%), a Yoan Moncada (22.7 HR/FB%, 19.2 Brls/BBE%).

Swing Změny a Statcast

a Konečně, chtěl jsem zkoumat, který Statcast metrické by být velmi užitečné pro portending moc breakout založené na houpačce změnit. Jak jsme se právě dozvěděli, úspěch v elektrické oddělení závisí na lepší Brls/BBE% a Brls/PA% známky. Existuje způsob, jak bychom mohli identifikovat hittery, které by se na nich mohly zlepšit a naopak zlepšit HR / FB% a ISO? Pokud ano, kterým hitterům by taková změna nejvíce prospěla?

víme, že sudy se skládají z LA a EV. Pouze první je opravdu pod kontrolou hittera. Jistě, mohl by dát více svalů a začít bít míč tvrději. Ale to opravdu nemůžeme předvídat. Namísto, pokud bychom předpokládali, že se bude více zvyšovat, což je spíše otázka vědomé volby, pak bude úspěšný poté, co tak učiní? Možná, že hráč učinil prohlášení médiím, že má v úmyslu zvednout míč. Prospělo by mu to? Odpovědět na všechny tyto otázky, rozhodl jsem se, které non-LA Statcast metriky jsou většinou prediktivní Brls/BBE% a Brls/PA%, uhodli jste, běží lineární a vícenásobné regrese.

Statcast Metric Brls/BBE% Brls/PA%
Average EV 0.5374 0.5737
EV on FB/LD 0.6936 0.7024
HH% 0.6178 0.6447
HH% + EV on FB/LD 0.6999 0.71226
EV on FB/LD + Average EV 0.6186 0.6459

Spíše než aby každý graf a výrazně prodloužit délku tohoto článku, jsem se rozhodla dát r^2 hodnoty v souhrnné tabulce. V souladu s tím můžete vidět, že EV na FB / LD je nejvíce prediktivní Brls / BBE% a Brls / PA%. Tolik, že přidání v HH% nebo průměrné EV nedává vzorku žádnou hodnotu a v některých případech je ve skutečnosti méně prediktivní. Tento výsledek mě také závratí, protože EV na FB / LD není jen prediktivní,ale je to také nejlepší z našich metrik Statcast. Je to skvělý způsob, jak najít své houpačky-změna breakouts.

to je nejcennější v hypotetickém scénáři, ve kterém si hitter udržoval vynikající EV na FB / LD, ale nezasáhl mnoho míčků a liniových pohonů, což mu ponechalo prostor ke zlepšení. Ale místo toho je vše nejlépe ilustrováno příkladem.

Vezměte si například Joshe Bella. Byl jsem na něm, aby šel do sezony, částečně, protože nebyl povýšen. V loňském roce byl jeho průměrný LA 9 stupňů a zasáhl pouze 34,6% míčků a 41.7% ground balls, což omezilo jeho Brls / BBE% na 7% (celkově 151. z těch se 150 BBEs) a jeho Brls / PA% na 4.8% (celkově 150.). To bylo i přes jeho mnohem lepší EV na FB / LD 94.2 mph(celkově 84.). Tento rok, zdá se, že vyvíjí společné úsilí, aby se povýšil, a vzhledem k jeho latentní síle, mohlo by to podpořit útěk. Nyní zasahuje 37,5% míčků a 41,7% míčků do průměru LA 12 stupňů. Nebuďte překvapeni, pokud jeho barel sazby zůstanou zvýšené na 14.6 Brls / BBE% a 10.3 Brls / PA% (a, podle pořadí, tak mohl jeho 16.7 HR / FB% a .276 ISO).

Pokud tedy víme, kdo bude více pozvedat, můžeme pšenici snadno oddělit od plev. Není to při pohledu na jejich HH% nebo průměrný EV; místo toho se jen rychle podívejte na jejich EV na FB / LD.

závěr

doufejme, že lidé začnou používat metriky Statcast vhodně. Pokud vidíte fantasy baseball analytik citovat hitter je tvrdý%, HH%, nebo průměrný EV navrhnout power breakout, zkontrolujte jeho barel sazby. Víte, že předpovídají HR / FB % a ISO a že jsou lepkavé. Poté zkontrolujte jeho EV na FB / LD. Víte, že by to mohlo v energetickém oddělení více předzvěst, pokud začne stoupat, a že to bude také držet. Nepředpokládejme, že metriky jako Hard%, HH% nebo average EV jsou nejlepší, protože k nim máme přístup.

Toto je jen začátek. V části II zkontroluji relativní hodnotu metrik Statcast proti BABIPU. Zůstaňte naladěni na další.

nejlepší Obrázek od Justin Paradis (@freshmeatcomm na Twitteru)