„Statystycznie to koń i człowiek mają po trzy nogi”. Zapewne nie raz zdarzyło się wam słyszeć taką „mądrość” mającą obnażyć kompletny bezsens statystyki. Tyle że głoszący jej ludzie pokazują jedynie, że kompletnie nie rozumieją na czym statystyka polega i do czego służy. Jednak wspomniane zdanie świetnie ilustruje dwie kwestie, z którymi stykamy się również w statystykach futbolu amerykańskiego – celowość i małą próbę.
Od początku XXI wieku w wielu sportach coraz śmielej rozpycha się analityka sportowa. Tym szerokim (i niezbyt poprawnym merytorycznie) terminem określa się wykorzystywanie w sporcie zaawansowanej statystyki, probabilistyki i sporządzanych na jej podstawie modeli matematycznych w celu optymalizacji podejmowanych decyzji.
W kilku tekstach w tym offseason chciałbym przybliżyć Wam kwestię analityki sportowej w futbolu. Sam nie jestem statystykiem ani matematykiem i we wszystkich tych tematach edukuję się samodzielnie. Mam jednak nadzieję, że dzięki temu te teksty będą bardziej zrozumiałe dla laika.
Rewolucja analityczna zaczęła się od baseballu1. Jest to idealny sport do modelowania matematycznego. Gra podzielona wyraźne odcinki (kolejne narzuty) z małą ilością zmiennych (w większości wypadków tylko miotacz i pałkarz) oraz łatwo określonym liczbowo efektem akcji.
Futbol ma wiele tych cech, zwłaszcza podzielenie gry na odcinki z wyraźnie określonym efektem akcji. Jednak zmiennych jest więcej, a dodatkowo natykamy się na problem małej próby.
Próba statystyczna i jej rozmiar
Próba statystyczna to nic innego jak zbiór obserwacji. Weźmy pod uwagę jeden z najprostszych eksperymentów statystycznych – rzut monetą. Taki rzut może mieć tylko dwa wyniki – orzeł lub reszka. W tym wypadku nasza próba to wszystkie rzuty. Z kolei rozmiar próby to liczba rzutów, które wykonaliśmy w ramach próby.
Im próba większa, tym mniejszym błędem są obciążone obserwacje przeprowadzone na jej podstawie.
Dlaczego tak się dzieje? Prześledźmy na przykładzie.
Wiemy, że prawdopodobieństwo orzełka i reszki w rzucie monetą wynosi 50/50. 50% rzutów powinno być orłem (O), 50% reszką (R). W rzeczywistości zbliżymy się do takiego rozkładu tylko przy dużych próbach. Przy małych wyjdą nam kompletne bzdury.
Jeśli rzucimy tylko raz, musi wypaść O albo R. Nie może przecież wypaść pół orła. Czy na tej podstawie możemy wysnuć wniosek, że prawdopodobieństwo wyrzucenia O to 100%? Oczywiście, że nie.
Jeśli wykonamy dwa rzuty, to prawdopodobieństwo otrzymania dwóch takich samych wyników (2O lub 2R) wynosi 50%. Przy trzech rzutach otrzymanie 3O lub 3R to wciąż niemała, 25% szansa.
(Doprecyzowując: szansa na 2O przy dwóch rzutach to 25%, ale na 2O lub 2R to już 50%. Przy trzech rzutach szansa na 3O to 12,5%, ale na 3O lub 3R 25%)
Im więcej rzutów, tym większa szansa, że wynik naszego eksperymentu zbliży się do teoretycznych proporcji 50/50. Oczywiście wciąż istnieje szansa, że nawet przy stu rzutach dostaniemy tylko O lub tylko R, ale szanse na to są mniejsze, niż na trafienie szóstki w Lotto. To nie znaczy, że przy każdych stu rzutach odstaniemy 50O i 50R. Ale taki wynik jest najbardziej prawdopodobny.
Wracając do „mądrości” z koniem i człowiekiem – próba takiego rozmiaru jest kompletnie nieistotna statystycznie i żaden statystyk nie poważyłby się wyciągać z niej żadnych wniosków.
Statystyka jako narzędzie
Statystyka jest narzędziem. Trzeba umieć go używać i wiedzieć do czego go używać. Czyli stawiać odpowiednie pytania i znajdować odpowiednie metody odpowiedzi.
Weźmy przykład z życia. Śrubokręt kompletnie nie nadaje się do nakładania gładzi szpachlowej. Czy to znaczy, że śrubokręt jest nieprzydatny?
Pod tym względem zagadnienie trójnogiego konia i człowieka jest również nonsensowne. Na jakie pytanie ma odpowiadać liczenie takiej średniej? Co chcemy tym sposobem osiągnąć? Jeśli generał na przełomie XIX i XX wieku miał informację jakie są średnie straty w szwadronach kawalerii mógł odpowiednio dostosować zapotrzebowanie na paszę – nawet jeśli te szwadrony, które straciły więcej będą potem musiały oddać nadmiar paszy tym, które straciły mniej. Jednak statystyka umożliwiała oszacowanie globalnego zapotrzebowania dywizji bez konieczności sumowania raportów z każdego szwadronu. Ale po co mu wiedza o średniej liczbie kończyn żołnierzy?
Jednak samo postawienie dobrego pytania nie wystarczy. W latach po II wojnie światowej za najlepszego quarterbacka w NFL uznawano tego, który podał na najwięcej jardów. Szybko dostrzeżono absurd takiego rozwiązania i opracowano passer rating. Jednak i on w dzisiejszych warunkach nie jest najlepszą metodą. Idealnej do dziś nie znamy, głównie w związku ze złożonością zagadnienia.
Zobacz: Jak sprowadzić statystyki quarterbacka do pojedynczego wskaźnika?
Mała próba w NFL
W futbolu generalnie chodzi o to, żeby wygrać. Nawet jednym punktem w ostatniej sekundzie po brzydkim meczu. Świetne wskaźniki statystyczne to fajny temat do dyskusji w pubie, ale ostatecznie liczy się to kto dopisuje sobie kolejne „W”. Tylko że w efekcie mamy skłonność do przeceniania liczby zwycięstw jako wskaźnika prognostycznego.
Powtórzę jeszcze raz: najważniejsze jest zwycięstwo i nie ma znaczenia, czy wygrywająca drużyna „zasłużyła” według zaawansowanych wskaźników na wygraną. Jednak analityka nie ma na celu odpowiedź na pytanie „czy drużyna A zasłużyła na wygraną”. Ma odpowiedzieć na pytania „co zrobić, żeby drużyna A wygrywała więcej” i „jak często drużyna A będzie wygrywała w przyszłości”. A w tym celu musimy odsiać czynniki, które drużyna może kontrolować od wpływu losowości. A to trudno zrobić przy małej próbie.
NFL gra w sezonie zasadniczym tylko 16 meczów. Niektóre drużyny grają między sobą tylko raz na cztery lata. Porównajmy to z koszykarską NBA, gdzie każda ekipa rozgrywa 82 spotkania i spotyka się z każdym rywalem minimum dwa razy w sezonie. Nie wspominając już o baseballowej MLB, gdzie każda drużyna gra 162 mecze, choć większość w ramach własnej dywizji. W efekcie wskaźnik zwycięstw i porażek w NFL jest bardziej narażony na wpływ czynników losowych i nie oddaje tak dobrze rzeczywistej siły drużyny.
Nie ma żadnego znaczenia, że Green Bay Packers w sezonie 2019 nie byli tak dobrą drużyną jak wskazywałoby ich 13 zwycięstw. Wygrali 13 meczów, awansowali do finału konferencji i nikt im tego nie odbierze. Jednak analityka wskazuje, że w sezonie 2020 najprawdopodobniej czeka ich regres. Powtórzę: chodzi o wartość prognostyczną.
W NFL mała próba ma ogromne znaczenie jeszcze z innego względu: duży wpływ czynników losowych. W 2007 r. Brian Burke policzył, że za 52,5% wyników w NFL odpowiada czynnik losowy. NFL to najbardziej wyrównana liga na świecie. Przy tak wyrównanym poziomie znacznie mogą mieć czynniki kompletnie poza kontrolą drużyny: pogoda, kierunek w jakim piłka odbije się po fumble, kontuzja kluczowego zawodnika. W długim terminie niemal wszystkie drużyny w NFL mają bilans w meczach zakończonych różnicą 7 lub mniej punktów w okolicy 50% – w latach 2001-2019 28 z 32 drużyn wygrywa między 40 a 60% takich meczów. Jednak pojedyncze sezony to zupełnie inna kwestia.
Wspomniani już Packers wygrali w sezonie 2019 sześć z siedmiu takich meczów, choć w latach 2008-18 (za „kadencji” Aarona Rodgersa) mieli w nich bilans 40-37. W sezonie 2020 należy się raczej spodziewać powrotu w okolice 50% niż kolejnego sezonu pełnego wygranych końcówek. I to jest właśnie wartość prognostyczna.
Jak analitycy radzą sobie z małą próbą w NFL? Generalnie ignorują zwycięstwa i porażki. Te mają znikomą, by nie powiedzieć zerową wartość prognostyczną. Zamiast tego sprowadzają grę drużyny do poziomu pojedynczej akcji. W sezonie 2019 przeciętna drużyna w NFL rozegrała ponad 1000 snapów w ataku i drugie tyle w obronie. To już próba, z której można coś ciekawego wyciągnąć.
W kolejnych tekstach opiszę jakie proste statystyki mają lepszą wartość prognostyczną niż wygrane i przegrane w poprzednim sezonie. Pochylimy się również nad ideą punktów oczekiwanych, która jest fundamentem wszelkiej analityki futbolowej.
Zostań mecenasem bloga: