Niedawno opublikowałem wpis, w którym pokazywałem jak skorelowane są główne klasy aktywów na świecie. Dziś oddaję w Wasze ręce wpis pogłębiający temat samej korelacji. To wpis gościnny, którego autorem jest Michał Krajewski z firmy analitycznej Yellowbird . Wcześniej, przez prawie 10 lat, Michał był dealerem/animatorem w DM BOŚ. We wpisie zwraca uwagę na często popełniane błędy przy stosowaniu współczynnika korelacji oraz daje wskazówki jak ich unikać.
Każdy inwestor zaczynając swoją przygodę z rynkami finansowymi, wśród ogromnej ilości różnych pojęć, bez wątpienia spotkał się z bohaterem tego artykułu –korelacją. Analizy publikowane na portalach branżowych nasuwają na myśl porównanie, że ze współczynnikiem korelacji jest trochę tak, jak z kierunkowskazem w samochodach BMW – każdy wie, że jest, jednak nie każdy potrafi go używać. Postaramy się przedstawić, czym jest korelacja oraz błędy występujące podczas jej interpretacji.
Korelacja może być zbiegiem okoliczności
Jak widać na powyższym wykresie wraz ze wzrostem temperatury maleje ilość piratów.
Wniosek?
Globalne ocieplenie niesie ze sobą również pozytywne skutki w postaci zwiększenia się bezpieczeństwa na morzach.
Przytoczymy również coś dla żeńskiej części czytelników (być może również i męskiej), który sugeruje, iż należy wyprowadzić się do kraju, który charakteryzuje się niskim poziomem dochodu narodowego.
Czym jest korelacja?
Nieumiejętne posługiwanie się wskaźnikiem, jak widać na powyższych przykładach, może doprowadzić do wielu nazbyt daleko idących wniosków. W celu uniknięcia takich sytuacji postanowiliśmy bliżej przyjrzeć się temu zagadnieniu.
Zacznijmy od definicji.
Posiłkując się matematyką odnajdujemy następujące wyjaśnienie:
„Korelacja między dwiema losowymi zmiennymi X i Y jest miarą siły (stopnia) liniowego związku między tymi zmiennymi.” (Amir D. Aczel – Statystyka w zarządzaniu, str. 479)
Jest to definicja zależności liniowej między dwiema zmiennymi, w której zwiększenie wartości jednej z nich powoduje proporcjonalne zmiany wartości oczekiwanej drugiej(wzrost bądź spadek). Współczynnik korelacji Pearsona jest to znormalizowana kowariancja, której wynik mieści się zawsze w przedziale od -1 do 1. Został opracowany przez Karla Pearsona i można wyliczyć go z wzoru:
Gdzie:
x i y – zmienne losowe o dyskretnych rozkładach,
– wartości prób losowych zmiennych x i y (i = 1,2,….,n),
– wartości średnie z prób, czyli:
Jak interpretować korelację?
Wyniki współczynnika mogą przyjmować wartości dodatnie oraz ujemne.
- Korelacja dodatnia (wartości zawierają się od 0 do 1) – informuje, że wzrostowi/spadkowi średnich wartości jednej cechy towarzyszy wzrost/spadek średnich wartości drugiej cechy,
- Korelacja ujemna (wartości współczynnika zawierają się między -1 a 0) – informuje, że wzrostowi/spadkowi średnich wartości jednej cechy towarzyszy spadek/wzrost średnich wartości drugiej cechy,
- Korelacja zerowa – brak korelacji liniowej między dwoma cechami.
Poniżej graficzna reprezentacja ze względu na różne wartości otrzymanego współczynnika.
Najciekawsza jest ostatnia kolumna pokazująca korelacje wynoszącą 0, czyli brak ZALEŻNOŚCI LINIOWEJ. Dostrzec można jednak, że jakaś zależność występuje (UWAGA wynik 0 przy korelacji Pearsona nie oznacza, że takowej nie ma, gdyż istnieją jeszcze niemonotoniczne zależności). Idealnym przykładem może być tutaj rzut monetą (uczciwą), gdzie ustala się wygraną bądź też przegraną ze względu na wynik rzutu. Jeśli zdefiniuje się kwotę zakładu jako X, natomiast wygraną netto jako Y i oznaczymy funkcją y=x^2 wtedy X i Y mogą mieć zerową korelację liniową, ale będzie między nimi występowała zależność – jeśli zna się wartość X będzie się znało również wartość Y. Temat ten nie jest jednak przedmiotem tego artykułu.
Przed przystąpieniem do obliczania wartości współczynnika korelacji Pearsona należy pamiętać o dwóch podstawowych założeniach:
- Przede wszystkim do obliczeń możemy wykorzystywać jedynie dane, które są mierzalne (interwałowych oraz proporcjonalnych).
- Istotnym aspektem, o którym również należy pamiętać przy stosowaniu wyżej wymienionego wzoru jest to, iż jest on niezwykle czuły na obserwacje odstające, czyli nietypowe, rzadko występujące. Ze względu na metodę wyznaczania linii regresji, obserwacje odstające mają duży wpływ na jej nachylenie, a w konsekwencji na wartość współczynnika korelacji
Korelacja to nie to samo, co związek przyczynowy
Początkujący „użytkownik” po krótkim wstępie opisującym teorię współczynnika korelacji wybiera średnie stopy zwrotów dwóch interesujących go walorów i przystępuje do obliczeń. Wnioski i zyski przyprawią go o entuzjazm, będzie musiał go wstrzymać, gdyż last but not least…
KORELACJA TO NIE TO SAMO, CO ZWIĄZEK PRZYCZYNOWY!
Niestety za pomocą współczynnika korelacji dowiemy się tylko, że istnieje związek między dwoma zmiennymi. Dopiero po wnikliwej analizie możemy się przekonać czy nie jest on przypadkowy.
Jedną z kluczowych wad współczynnika korelacji jest właśnie to, iż nie wyróżnia on zmiennej zależnej i niezależnej. Pokazuje zgodność kierunku zmian oczekiwanej wartości badanych danych.
Uwaga na pochopne wnioski
Bardzo dobrym przykładem wysuwania zbyt daleko idących wniosków z analizy wyników współczynnika korelacji jest artykuł z 18 października 2012 z New England Journal of Medicine.
Przedstawimy poniżej fragment artykułu wraz z wykresem zależności spożycia czekolady w danym kraju do ilości laureatów nagrody nobla.
„There was a close, significant linear correlation (r=0.791, P<0.0001) between chocolate consumption per capita and the number of Nobel laureates per 10 million persons in a total of 23 countries (Fig. 1). When recalculated with the exclusion of Sweden, the correlation coefficient increased to 0.862. Switzerland was the top performer in terms of both the number of Nobel laureates and chocolate consumption. The slope of the regression line allows us to estimate that it would take about 0.4 kg of chocolate per capita per year to increase the number of Nobel laureates in a given country by 1. For the United States, that would amount to 125 million kg per year. The minimally effective chocolate dose seems to hover around 2 kg per year, and the dose–response curve reveals no apparent ceiling on the number of Nobel laureates at the highest chocolate-dose level of 11 kg per year”
Autorzy założyli, iż skoro wychodzi wysoki współczynnik korelacji między spożyciem czekolady a ilością laureatów nagrody nobla, można przyjąć, że znamy „złoty środek” na zostanie geniuszem. Wystarczy pół kilograma czekolady rocznie i jesteśmy bliżej naukowego Olimpu.
Pamiętając , iż Korelacja To Nie To Samo Co Wynikanie, zapewne zatrzymaliście się przed ruszeniem do sklepu po roczny zapas czekolady. Niestety, jak widać powszechnie stosuje się błędną interpretację analizy korelacji mianowicie, że implikuje ona przyczynowość. Jak wspomnieliśmy wcześniej – nie wyjaśnia ona charakteru zgodności liniowej, a jedynie ocenia jego intensywność.
Kolejną kwestią jest to, że dwa czynniki mogą wykazywać związek nie dlatego, że mają na siebie wpływ, tylko ze względu na to, że oddziałuje na nie ten sam czynnik trzeci. W tym wypadku należałoby rozważyć chociażby poziom dobrobytu w danych krajach, czy to aby on nie wpływa na poziom dostępu do takich dóbr jak czekolada oraz na jakość systemu edukacji.
Kolejnym błędem, który można wykazać na tym przykładzie jest sam dobór danych, z których wyciąga się informację odnośnie jednostek na podstawie całej grupy. Bardziej rozsądnym podejściem byłoby przyjrzenie się konsumpcji czekolady wśród samych laureatów nagrody nobla i na tej podstawie sformułowanie wnioski.
Podsumowując ten temat, posłużymy się wyjaśnieniem profesora Bogusława Guzika zawartym w artykule „Empiryczne szacowanie zależności ekonomicznych” :
„Otóż zwykły współczynnik korelacji liniowej może być uznany za wskaźnik siły zależności między zmienną Y a zmienną X tylko wtedy, gdy jednocześnie:
- Zmienna X rzeczywiście jest czynnikiem kształtującym zmienną Y, a więc gdy gruntownie zweryfikowana teoria i powszechne przekonanie profesjonalistów wskazują, że Y zależy od X , co znaczy, że X jest przyczyną a Y – skutkiem;
- Zmienna X jest jedynym czynnikiem oddziałującym na Y lub też w zmiennej X odzwierciedlają się wszystkie czynniki kształtujące zmienną Y ;
- Zależność między zmienną Y a zmienną X jest liniowa.
Tylko w tym przypadku obliczanie standardowych (Pearsonowskich) współczynników korelacji można byłoby z całkowitym przekonaniem potraktować jako odgadywanie siły zależności tych zmiennych. Jeśli jednak któryś z podanych trzech warunków nie jest spełniony, „przyczynowo-skutkowa” interpretacja współczynnika korelacji jako miernika siły zależności nie jest uzasadniona”
Trend może pokazywać korelację tam, gdzie jej nie ma
Analizując współczynnik korelacji między wielkościami, które rosną/spadają w miarę upływu czasu, czyli podlegają trendom, można wielokrotnie dojść do wniosków, które nie przedstawiają ze sobą większych wartości – czego przykłady zostały przytoczone wcześniej.
Jedną z metod służącą „eliminacji trendu” jest różnicowanie szeregu. Polega ono na obliczaniu pierwszych lub dalszych różnic między kolejnymi wartościami. Pierwsze różnice obliczamy ze wzoru:
Będą one reprezentować zmiany wartości w badanym szeregu. Przykładowy szereg, może więc mieć przebieg wykazujący trend a po różnicowaniu otrzymamy wartości, które (bardzo często) będą już stacjonarne, a przynajmniej będą miały stały w czasie średni poziom.
Następnie określa się czy istnieje korelacja między Δ Xt oraz Δ Yt.
Skuteczność zastosowania wzoru pierwszych różnic do eliminacji, tak zwanych korelacji pozornych, przedstawimy na jednym z przykładów ze strony zajmującej się wyszukiwaniem takich powiązań.
Okazuje się, że istnieje silna korelacja wynosząca 0.94709 między ilością konsumowanego sera na mieszkańca do ilości zgonów wśród ludzi zaplątanych w prześcieradła.
Wykorzystując wzór pierwszych różnic dokonamy przekształcenia danych, eliminując z nich trend.
Współczynnik korelacji obliczony z nowych danych wynosi już tylko 0,255605 czyli jest to diametralna zmiana w stosunku do pierwotnej wartości wynoszącej blisko 1.
Na powyższych przykładach widać jak wiele błędnych wniosków można wyciągnąć interpretując bez dodatkowych analiz wskaźnika korelacji. Błędy takie może popełniać niedoświadczony, początkujący adept sztuki inwestowania. Nie jest jednak rzeczą rzadką, iż popełniają je również ludzie uchodzący za profesjonalistów, którzy od dłuższego czasu związani są z rynkami finansowymi.
Korelacja w świecie finansów jest istotnym elementem dla uczestników rynku, chociażby dlatego, że wykorzystywana jest do tworzenia zdywersyfikowanych portfeli. Jest to wskaźnik, który nie jest bezpośrednio analizowany oraz zmienia się w czasie, dlatego poświęca się duże nakłady na to, aby oszacować korelacje, modelować jej zmiany w czasie i zachowanie podczas szoków rynkowych.
Jak korelacja zmienia się w czasie?
W celu zademonstrowania tego jak korelacja zmienia się w czasie i należy ją bezustannie monitorować, przyjrzymy się dwóm zmiennym : indeksowi S&P500 oraz złocie. Obserwacje poczynimy na okresie pierwszych trzech miesięcy roku na przestrzeni trzech ostatnich lat.
Poniżej przedstawimy wykresy reprezentujące skumulowane stopy zwrotów (przyjmując wartość 100 za początkową).
Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi 0,208755
Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi -0,30175
Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi 0,07899
Jak widać na załączonych przykładach korelacja nie jest zjawiskiem stałym w czasie. Oznacza to, że oparcie budowy portfela na historycznych danych może okazać się błędne. Prowadzi to do tego, iż wymaga ciągłego monitorowania, o czym wspomnieliśmy wcześniej lub prognozowania korelacji, tak jak np. niektóre z funduszy absolutnej stopy zwrotu prognozują chociażby tzw. Betę rynkową lub zmienność. Należy uznać to za dużo rozsądniejsze podejście, o ile oparte jest o konkretne modele statystyczne, a nie subiektywną ocenę.
Współczynnik korelacji a teoria portfelowa Markowitza
Na koniec warto odnotować, że współczynnik korelacji został niejako wprowadzony dla świata finansów przez Harry-ego Markowitza, gdy w 1952 roku pokazał światu swoją nowoczesną teorię portfelową. Według założeń w niej zawartych,w celu zmniejszenia wariancji portfela inwestycyjnego, należy dobierać aktywa charakteryzujące się jak najniższą wartością współczynnika korelacji (czyli nieskorelowane), lub ujemnie skorelowanych jeśli to możliwe. Problem polega jednak na tym, że korelacje nie są bezpośrednio obserwowane oraz mają tendencję do zmiany w czasie (co pokazaliśmy w artykule). Kolejną kwestią jest to, o czym wspomnieliśmy na początku, iż mogą powstawać błędne wyniki ze względu na porównywanie walorów, które w danym momencie są w tym samym trendzie. Wszystko to powoduje, że początkujący inwestor stosujący się do założeń teoretycznych może stworzyć portfel, który również tylko w teorii będzie bezpiecznym.
Korelacja, czyli ruch w tą samą stronę?
Na koniec chcieliśmy poruszyć kolejny (a jakże) problem przy interpretacji współczynnika korelacji, a mianowicie myślenie iż otrzymany wynik dodatni oznacza tendencję dwóch zmiennych losowych do ruchu w tym samym kierunku, podczas gdy wartość ujemna sygnalizuje coś przeciwnego.
Przyglądając się jednak uważnie wzorowi dostrzegamy, że Pearsonowska korelacja obliczana jest z odchyleń od średnich, a więc wszelkie wnioski pochodzące z jego znaku lub wartości można odnosić tylko do odchyleń od średniej odpowiednich szeregów czasowych.
Co niesie ta zmiana interpretacji dla inwestora tworzącego swój pierwszy „bezpieczny” portfel?
Jesteśmy przekonani, że bardzo dużo.Nikt nie będzie szczęśliwy, iż wszystkie walory z jego portfela tracą w tym samym czasie, ale z pewnymi odchyleniami wokół ich trendu. Wystarczy, że w trendzie spadkowym jedna spółka będzie spadała w analogicznym okresie więcej niż jej średnia, podczas gdy druga o tą samą wartość mniej od średniej i otrzymamy wynik korelacji ujemnej (odchylenia od średniej są identyczne, ale mają przeciwne znaki), podczas gdy reprezentacja graficzna pokaże bez wątpienia iż powinna wychodzić wartość dodatnia współczynnika.
W celu bardziej obrazowego przedstawienia problemu prezentujemy poniżej przykład z książki „Market sense and nonsense” J. Schwager-a, który został omówiony na blogu bossa.pl.
Analizując wykres skumulowanych stóp zwrotu zastanawiać się można jak blisko doskonale ujemnej korelacji są stopy zwrotu z indeksu oraz funduszu. Otóż wynik współczynnika korelacji wynosi, uwaga …. 1 .Wystarczą zmiany w tych samym kierunkach w tym samym czasie w stosunku do swoich średnich.
Na zakończenie
Pisząc ten artykuł chcieliśmy przedstawić do jak wielu pomyłek może doprowadzić wyszukiwanie i analizowanie współczynnika korelacji w oderwaniu od jego założeń i ograniczeń. Najważniejsze kwestie jakie pragniemy aby czytelnik zapamiętał z tego artykułu i przełożył do swoich analiz współczynnika korelacji Pearsona to:
- Korelacja nie oznacza związku przyczynowego.
- Przyczyną występowania korelacji może być trend.
- Korelacja nie jest wartością stałą w czasie.
- Brak korelacji liniowej nie oznacza, że takowa nie występuje.
- Wynik ujemny korelacji nie oznacza, że zmienne podążają w przeciwnych „kierunkach”.
W świecie finansów bardzo często kwestia błędu ma bezpośrednie przełożenie na rachunek zysków i strat z inwestycji. Wiemy, że najlepiej uczyć się na błędach, jednak wychodzimy z założenia, że na cudzych. Stąd też poruszony przez nas temat „korelacja czyli to nie tak jak myślisz”, aby było tych błędów jak najmniej.
Wydaje mi się, że w tym zdaniu jest błąd „Najciekawsza jest ostatnia kolumna”.