2/2024 | Theorie & Praxis

Im Faktor-Irrgarten

Die Diskussionen zum Thema Faktorinvestments halten an. Einige Studien versuchen den „Faktorzoo“ auf eine überschaubare Größe einzudampfen, andere halten den ganzen Ansatz für falsch. In der Praxis fehlt dagegen vor allem eines: Performance.

Die wissenschaftlichen Arbeiten zum Thema „Faktorinvestment“ füllen mittlerweile Bibliotheken. Für Investoren, die sich für die Konzepte in der praktischen Umsetzung interessieren, ist es inzwischen schwierig, sich in diesem Irrgarten der akademischen Meinungen zurechtzufinden. © GMF

Faktorstrategien basieren auf der Idee, messbare Risikomerkmale, die Unterschiede in den Renditen verschiedener Wertpapiere erklären, in Performance zu verwandeln. Grundlage dafür war einst das klassische Capital Asset Pricing Model (CAPM), in dem der Markt den einzigen Faktor darstellte. Dann folgte das Drei-Faktor-Modell, in dem Value und Size hinzukamen. Im Lauf der Zeit wurden neben Momentum, Profitabilität und Investment viele weitere Faktoren entdeckt, mit denen sich Querschnittsrenditen von Aktien immer besser erklären ließen. Inzwischen liegt die in der wissenschaftlichen Literatur dokumentierte Anzahl von Faktoren deutlich im dreistelligen Bereich. Mit einem Augenzwinkern wird deshalb schon längst vom „Faktorzoo“ gesprochen.

Wie viele Faktoren sind relevant?

Dabei stellt sich die Frage, inwieweit eine derart hohe Anzahl für die Praxis überhaupt relevant sein kann. Bei den vielen Faktoren dürfte eine beträchtliche Menge redundanter Information enthalten sein. Man könnte also vermuten, dass es nur wenige unabhängige Merkmale braucht, um den Querschnitt der Aktienrenditen zu erklären. Allerdings sind Forscher uneins darüber, wie viele Faktoren man wirklich ausblenden kann. Die Studie „More Factors Matter and Factors Matter More than You Might Think: The Role of Time Variation in Factor Premia“ von Hendrik Bessembinder (Arizona State University), Aaron Burt (University of Oklahoma) und Christopher Hrdlicka (University of Washington) argumentiert für eine recht hohe Zahl relevanter Faktoren. Die Forscher untersuchen rollierende 60-Monats-Zeiträume, was die zeitliche Variation der Faktoren berücksichtigt, und konzentrieren sich auf die out of sample erzielten Sharpe Ratios. Im Durchschnitt verbessern sich die Ergebnisse dabei weiter, wenn bis zu rund 40 Faktoren in das Modell einbezogen werden. Das deutet darauf hin, dass die Informationen einzelner Faktoren in erheblichem Umfang nicht redundant sind. Allerdings schwankt die genaue Anzahl im Lauf der Zeit erheblich (siehe Grafik „Schwankende Anzahl relevanter Faktoren“).

Interessant ist auch, dass sich die relevanten Faktoren im Lauf der Zeit verändern, was die Autoren mit der dynamischen Natur der Märkte begründen. Dieser Wandel vollzieht sich nicht abrupt, weshalb Schätzungen, die in vergleichsweise kurzen In-Sample-Perioden gebildet wurden, in den nachfolgenden Out-of-Sample-Perioden in der Regel noch relevant sind. Die Faktoren scheinen also eine gewisse Persistenz aufzuweisen. Diese Ergebnisse widersprechen der verbreiteten Sichtweise, dass die Anzahl aussagekräftiger Faktoren dauerhaft abnehmen muss oder dass Faktoren verschwinden, sobald sie in der Literatur dokumentiert wurden. In der Praxis scheinen erfolgreiche Faktoren nicht ohne Weiteres „wegarbitriert“ zu werden.

Allerdings gibt es auch Studien, in denen der Faktorzoo stärker eingedampft wird. So zum Beispiel im Paper „Factor Zoo“, das in enger Zusammenarbeit zwischen der Lancaster University und Robeco entstand. Darin untersuchen Alexander Swade, Matthias Hanauer, Harald Lohre und David Blitz, wie der Zoo komprimiert werden kann, ohne dass nennenswert Informationen über das optimale Portfolio verlorengehen. Allerdings ist die Vorgehensweise eine andere. Ausgehend vom Marktfaktor identifizieren sie Schritt für Schritt weitere Faktoren, die im Untersuchungszeitraum von November 1971 bis Dezember 2021 gemeinsam einen immer größeren Teil des Alphas erfassen. Insgesamt werden dabei 153 Faktoren für den US-Aktienmarkt berücksichtigt. Das Ergebnis ist hier, dass je nach Signifikanzniveau zwischen zehn und 20 Faktoren ausreichen, um den ganzen Zoo abzudecken (siehe Tabelle „Top-10-Faktoren“). Der Großteil ist also redundant. Akademische Modelle, die meist nur drei bis sechs Faktoren enthalten, wären demnach jedoch zu eng definiert – zumindest wenn sie die Renditen möglichst vollständig erklären sollen.

Das Problem in der Praxis

Egal welcher Analyse man Glauben schenkt, eines scheint festzustehen: Der größte Teil der dokumentierten Faktoren ist überflüssig. Das ist sicherlich eine Erkenntnis, die viele Praktiker schon länger vermuten. Doch aus deren Sicht gibt es ein noch viel größeres Problem. Während die Theorie damit beschäftigt ist, in tausenden Studien hunderte Faktoren zu entdecken und damit das Wachstum einer Billionen-Dollar-Industrie zu speisen, war die Performance der darauf basierten Anlagestrategien bislang überwiegend enttäuschend. Man könnte vermuten, dass dies mit der Veränderung der Faktorprämien im Zeitablauf zu tun hat, wie es die erstgenannte Studie dokumentiert. Doch inzwischen bewegt sich der Konsens in eine andere Richtung.

Zwar beinhalten viele Studien lange Rückrechnungen zu den entsprechenden Faktoren. Doch die Ergebnisse können trotzdem irreführend sein. Denn es ist ohne Weiteres möglich, Backtests so zu optimieren, dass sie rückblickend die gewünschte Performance zeigen. Es können sprichwörtlich Tausende Tests gemacht werden, bis der „richtige“ dabei ist (siehe dazu auch „Geplatzte Renditeträume“ zum Thema Data Mining in Institutional Money 3/2022, S. 102–106). Bei diesen Tests lassen sich alle denkbaren Variationen ausprobieren, was etwa den Umfang des Anlageuniversums, den betrachteten Zeitraum oder die Ein- und Ausschlusskriterien angeht. Das Ergebnis sind unzählige, im Detail unterschiedliche Umsetzungen der Faktoren, die wiederum nur eine starke Vereinfachung der Realität anhand linearer Zusammenhänge darstellen. Da aus dieser Vielzahl meist die besten Resultate selektiert werden, steigt die erwartete Sharpe Ratio schon allein mit der Anzahl der Tests. Die Wahrscheinlichkeit, dass genau diese Einstellungen auch out of sample weiterhin ebenso gut funktionieren, ist aber verschwindend gering. Mit etwas Glück sorgen die Flows bei populären Strategien zwar eine Zeit lang dafür, dass die Performance halbwegs stimmt, wirklich auf die Faktoren verlassen kann man sich aber nicht.

Enorme Unterschiede

In diese Kerbe schlägt auch das Paper „Non-Standard Errors in Asset Pricing: Mind Your Sorts“ von Amar Soebhag, Bart Van Vliet und Patrick Verwijmeren (alle Erasmus School of Economics). Die Forscher schreiben, dass man bei der Konstruktion von Faktoren vor einer Reihe von Entscheidungen steht, die sich von Studie zu Studie unterscheiden. Das stellt eine zusätzliche Fehlerquelle dar, die neben dem Prozess der Datengenerierung an den Märkten zu weiterer Unsicherheit in Bezug auf den Forschungsprozess führt. Die Autoren untersuchen Wahlmöglichkeiten zur Faktorkonstruktion wie den Ausschluss von Microcaps und Finanzfirmen, Top/Flop-Breakpoints und die Art der Gewichtung. Daraus ergeben sich im Paper insgesamt 256 mögliche Kombinationen. Auf Basis von Daten zu US-Aktien im Zeitraum von 1972 bis 2021 zeigt sich, dass die Kombinationen eine sehr große Spanne an Sharpe Ratios aufweisen (siehe Grafik „Scheinbare Details führen zu enormen Diskrepanzen“). Diese Fehlerquelle kann anhand der Standardabweichung der Sharpe Ratios über alle Varianten hinweg gemessen werden. Das erstaunliche Ergebnis: Sie beträgt im Mittel das 1,2-Fache der traditionellen Standardabweichung auf Basis der Unsicherheit der Stichprobenschätzungen. Das bedeutet, dass die Wahl der scheinbaren Details zur Ausgestaltung von Faktoren in Wahrheit einen ganz entscheidenden Einfluss auf das generelle Ergebnis hat.

Selbst die Väter des 3-Faktor-Modells, Eugene Fama und Kenneth French, führen heute einige klare Kritikpunkte an. Sie schreiben, dass man über Details der Faktorkonstruktion streiten kann und dass die Modelle grundsätzlich Lücken in der Erklärung der erwarteten Renditen aufweisen. Besonders deutlich ist folgender Hinweis aus einem ihrer Paper: „Die Instabilität der Parameter und statistische Fehler führen dazu, dass Schätzungen erwarteter Renditen unzuverlässig sind.“ Mit anderen Worten: Man kann sich einfach nicht auf Faktormodelle verlassen.

Korrelation vs. Kausalität

Bislang wurde die Schuld für die schlechte Performance von Faktorstrategien in der Praxis auf Mehrfachtests, p-Hacking und HARKing geschoben (siehe Infokasten). Doch das ist nicht alles. Geht es nach Marcos López de Prado, der schon mehrfach durch Kritik an traditionellen Faktormodellen aufgefallen ist, sind diese grundsätzlich fehlerhaft. Das Problem ist ihm zufolge, dass sie nicht den zugrunde liegenden, datengenerierenden Prozess an den Märkten abbilden und demnach von Vornherein nicht korrekt spezifiziert sein dürften. Stattdessen unterstellt man auf Grundlage von Rückrechnungen, dass das Halten von Wertpapieren mit einem nicht diversifizierbaren Risiko X im Durchschnitt belohnt wird, und wählt kurzerhand die Spezifikation mit dem höchsten Erklärungsgehalt aus. Dieses bereits genannte noble Ziel, die Renditen möglichst vollständig erklären zu wollen, scheint den Modellen dabei zum Verhängnis zu werden.

Gemeinsam mit seinem Koautor Vincent Zoonekynd schreibt López de Prado (beide Abu Dhabi Investment Authority) im Paper „Why Has Factor Investing Failed?: The Role of Specification Errors“, dass die ökonometrischen Grundlagen, die in der traditionellen Faktorforschung verwendet werden, zu Spezifikationsfehlern führen. Den Forschern zufolge können diese Fehler die erratische Performance von Faktorstrategien besser erklären als zeitlich variierende Risikoprämien, bei denen ein verändertes Verhalten des Marktes oder der Anleger zugrunde liegen müsste. Ist ein Faktormodell dagegen von Vornherein falsch spezifiziert, werden die Parameterschätzungen systematisch verzerrt. Genau das ist dem Paper zufolge nicht nur häufig der Fall, sondern auch gefährlicher als oft vermutet. Denn im Vergleich zum korrekt spezifizierten Modell kann je nach Fehler eine Underperformance oder ein systematischer Verlust resultieren.

Confounder und Collider

Allerdings wird in der Faktorforschung oft angenommen, dass der Einbezug irrelevanter Faktoren kein großes Risiko darstellt. Deshalb wirft man bei den Regressionen gern alles in einen Topf, um jegliche Variablen zu berücksichtigen, die möglicherweise relevant sein könnten. Das Problem ist, dass darunter auch Störfaktoren (Confounder) und kollidierende Faktoren (Collider) sind, deren sich die Entwickler überhaupt nicht bewusst sind. Dabei können Confounder im Modell sowohl die Ursache als auch die Wirkung beeinflussen, während Collider umgekehrt wiederum davon beeinflusst werden. Vereinfacht gesagt sorgen beide Effekte für teilweise Zirkelbezüge und ungeahnte Wechselwirkungen.

Die Folge ist, dass Forscher, die auf diese verzerrenden Merkmale hin optimieren, ohne böse Absicht und trotz bester Bemühungen zu Faktorstrategien gelangen, die implizit p-Hacking aufweisen. Das liegt daran, dass die Spezifikation mit dem vermeintlich höchsten Erklärungsgehalt, in der Regel anhand des Bestimmtheitsmaßes, selektiert wird. Doch die statistische Erklärbarkeit trügt. Rückblickend basiert sie eher auf optimierten als auf tatsächlich kausalen Zusammenhängen. Trotzdem schaffen es falsch spezifizierte, überoptimierte Modelle, durch ihren scheinbar hohen Erklärungsgehalt die eigentlich besseren, richtig spezifizierten Ansätze zu verdrängen. Sie können in der geschönten rückblickenden Betrachtung nicht mithalten.

Kausale Modelle

Im realen Einsatz folgt dann die Enttäuschung. Im Fall von Confoundern schneiden die falsch spezifizierten Modelle schlechter ab als die korrekte Spezifikation. Im Fall von Collidern werden sogar systematische Verluste verursacht. Die Forscher schreiben, dass das selbst dann gilt, wenn die Risikoprämien mit dem richtigen Vorzeichen geschätzt wurden und alle Korrelationen konstant bleiben. Deshalb ist es in der Entwicklung von Faktormodellen unabdingbar, die Spezifikationen ganz genau zu überprüfen und auch zu rechtfertigen. Dabei ist es den Autoren zufolge zielführend, der tatsächlichen kausalen Struktur des datenerzeugenden Prozesses auf die Schliche zu kommen und den dadurch verifizierten Faktoren zu folgen.

Erste Studien zu kausalen Modellen gibt es bereits. So stellt das Paper „Causal Discovery in Financial Markets: A Framework for Nonstationary Time-Series Data“ fest, dass Value (HML) im 3-Faktor-Modell von Fama/French einen problematischen Collider darstellen kann. Im Paper „Re-Examination of Fama-French Factor Investing with Causal Inference Method“ wird dagegen das 5-Faktor-Modell unter die Lupe genommen. Dabei zeigt sich, dass sich nur Value (HML) und Investment (CMA) als Regressoren für Aktienrenditen eignen. Bislang steckt das Forschungsfeld in Bezug auf die Finanzmarktforschung aber noch in den Kinderschuhen. Es ist also zu erwarten, dass künftig weitere Ergebnisse aus kausalen Modellen publiziert werden. Im Detail sind diese zwar ebenfalls kompliziert und bringen ihre eigenen Herausforderungen mit sich. Doch was ist die Alternative? Weitere 100 Faktoren für den Zoo zu entwickeln?

Letztlich liegt die Beweislast für die tatsächliche Funktionsweise bei den Entwicklern der Faktorstrategien. Ohne klare Nachweise besteht ein erhebliches Risiko, dass das Modell überoptimiert ist und Anleger wahrscheinlich schlechtere Ergebnisse erzielen. In Zukunft werden Backtests, denen erfahrene Praktiker schon lange skeptisch gegenüberstehen, dafür nicht ausreichen. Der Trend geht in Richtung kausaler Zusammenhänge, die ein besseres Verständnis der Finanzmärkte ermöglichen könnten. Wirklich enden dürfte der Faktor-Winter aber erst, wenn sich das Ganze auch in messbaren Anlagerenditen niederschlägt.

Dr. Marko Gränitz

Dieses Seite teilen

Im Faktor-Irrgarten

Dieses Seite teilen