Institutional Money, Ausgabe 2

Blitz, wie der Zoo komprimiert werden kann, ohne dass nennenswert Informationen über das optimale Portfolio ver- lorengehen. Allerdings ist die Vorgehensweise eine andere. Ausgehend vom Marktfaktor identifizieren sie Schritt für Schritt weitere Faktoren, die imUntersuchungszeitraum von November 1971 bis Dezember 2021 gemeinsam einen immer größeren Teil des Alphas erfassen. Insgesamt werden dabei 153 Faktoren für den US-Aktienmarkt berücksichtigt. Das Ergebnis ist hier, dass je nach Signifikanzniveau zwi- schen zehn und 20 Faktoren ausreichen, um den ganzen Zoo abzudecken (siehe Tabelle „Top-10-Faktoren“). Der Groß- teil ist also redundant. Akademische Modelle, die meist nur drei bis sechs Faktoren enthalten, wären demnach jedoch zu eng definiert – zumindest wenn sie die Renditen möglichst vollständig erklären sollen. Das Problem in der Praxis Egal welcher Analyse man Glauben schenkt, eines scheint festzustehen: Der größte Teil der dokumentierten Faktoren ist überflüssig. Das ist sicherlich eine Erkenntnis, die viele Praktiker schon länger vermuten. Doch aus deren Sicht gibt es ein noch viel größeres Problem. Während die Theorie damit beschäftigt ist, in tausenden Studien hunderte Fakto- ren zu entdecken und damit das Wachstum einer Billionen- Dollar-Industrie zu speisen, war die Performance der darauf basierten Anlagestrategien bislang überwiegend enttäu- schend. Man könnte vermuten, dass dies mit der Verän- derung der Faktorprämien im Zeitablauf zu tun hat, wie es die erstgenannte Studie dokumentiert. Doch inzwischen bewegt sich der Konsens in eine andere Richtung. Zwar beinhalten viele Studien lange Rückrechnungen zu den entsprechenden Faktoren. Doch die Ergebnisse können trotzdem irreführend sein. Denn es ist ohne Weiteres mög- lich, Backtests so zu optimieren, dass sie rückblickend die gewünschte Performance zeigen. Es können sprichwörtlich Tausende Tests gemacht werden, bis der „richtige“ dabei ist (siehe dazu auch „Geplatzte Renditeträume“ zum Thema Data Mining in Institutional Money 3/2022, S. 102–106). Bei diesen Tests lassen sich alle denkbaren Variationen ausprobieren, was etwa den Umfang des Anlageuniversums, den betrach- teten Zeitraum oder die Ein- und Ausschlusskriterien an- geht. Das Ergebnis sind unzählige, im Detail unterschied- liche Umsetzungen der Faktoren, die wiederum nur eine starke Vereinfachung der Realität anhand linearer Zusam- menhänge darstellen.Da aus dieser Vielzahl meist die besten Resultate selektiert werden, steigt die erwartete Sharpe Ratio schon allein mit der Anzahl der Tests. Die Wahrscheinlich- keit, dass genau diese Einstellungen auch out of sample weiterhin ebenso gut funktionieren, ist aber verschwindend gering. Mit etwas Glück sorgen die Flows bei populären Strategien zwar eine Zeit lang dafür, dass die Performance halbwegs stimmt, wirklich auf die Faktoren verlassen kann man sich aber nicht. Enorme Unterschiede In diese Kerbe schlägt auch das Paper „Non-Standard Errors in Asset Pricing: Mind Your Sorts“ von Amar Soebhag, Bart Van Vliet und Patrick Verwijmeren (alle Erasmus School of Economics). Die Forscher schreiben, dass man bei der Kon- struktion von Faktoren vor einer Reihe von Entscheidungen steht, die sich von Studie zu Studie unterscheiden. Das stellt eine zusätzliche Fehlerquelle dar, die neben dem Prozess der Datengenerierung an den Märkten zu weiterer Unsicherheit in Bezug auf den Forschungsprozess führt. Die Autoren un- tersuchen Wahlmöglichkeiten zur Faktorkonstruktion wie den Ausschluss von Microcaps und Finanzfirmen, Top/Flop- Breakpoints und die Art der Gewichtung. Daraus ergeben sich im Paper insgesamt 256 mögliche Kombinationen. Auf Basis von Daten zu US-Aktien im Zeitraum von 1972 bis 2021 zeigt sich, dass die Kombinationen eine sehr große Spanne an Sharpe Ratios aufweisen (siehe Grafik „Scheinbare Details führen zu enormen Diskrepanzen“). Diese Fehlerquelle kann anhand der Standardabweichung der Sharpe Ratios über alle Varianten hinweg gemessen werden. Das erstaun- liche Ergebnis: Sie beträgt imMittel das 1,2-Fache der tradi- tionellen Standardabweichung auf Basis der Unsicherheit p-Hacking und HARKing M it p-Hacking wird versucht, die statistische Signifikanz von Ergeb- nissen zu erhöhen, indem nachträglich Parameter und Designs einer Untersu- chung angepasst werden. Die Bezeich- nung zielt auf den dafür relevanten p- Wert ab, der auf diese Weise unter eine bestimmte Grenze gedrückt werden soll, meist 5 oder 1 Prozent. Dadurch können die Ergebnisse als statistisch signifikant bezeichnet werden. Aller- dings führt diese Praxis vielfach zu falsch-positiven Ergebnissen. HARKing ist ein Kunstwort aus den Anfangsbuchstaben von „Hypothesizing After the Results are Known“ und meint das Aufstellen von Hypothesen, nach- dem die Ergebnisse bereits bekannt sind. Man könnte zum Beispiel mit Pfeil und Bogen auf eine Zielscheibe schie- ßen und dann unabhängig vom Ein- schlagpunkt behaupten, genau dort getroffen haben zu wollen. Oder man schießt erst und zeichnet dann das Fadenkreuz an die passende Stelle. Die Motivation für diese fragwürdi- gen Vorgehensweisen ist, dass statis- tisch signifikante positive Ergebnisse eine deutlich höhere Wahrscheinlichkeit haben, in einem relevanten Journal ver- öffentlicht zu werden. Die Journals fol- gen dieser Auswahlpraxis, da sie in Konkurrenz zueinander stehen. Und für Wissenschaftler ist es wichtig, eine bestimmte Zahl von Publikationen zu erzielen. Der Druck, signifikante Ergeb- nisse zu präsentieren, ist also hoch. Daraus ergibt sich der Anreiz für exzes- sives Data Mining. 136 N o . 2/2024 | institutional-money.com THEORIE & PRAXIS | Faktorstrategien FOTO: © ROBECO » Die wirtschaftliche Bedeutung hängt von der Konstruktionsweise der Faktoren ab. « Amar Soebhag, Assistant Professor, Erasmus School of Economics & Robeco Asset Management

Institutional Money, Ausgabe 2 | 2024