Institutional Money, Ausgabe 3

sehr hoch. Zählt man eins und eins zusam- men, ergibt sich daraus der Anreiz für exzessives Data Mining und das „Erschaf- fen“ signifikanter Ergebnisse. Das wie- derum untergräbt jedoch die Qualität der Ergebnisse und deren praktischen Nutzen. Ein Beispiel dafür ist der Faktorzoo, der heute mehrere hundert „signifikante“ Kapi- talmarkteffekte umfasst. Das Autorentrio weist darauf hin, dass Backtests nicht nur dazu verwendet werden, die jeweiligen Modelle zu verbessern. Statt- dessen geht es zum Teil auch darum, den Backtest an sich zu optimieren. Losge- löst von fundamental begründeten Para- metern ist eine solche Optimierung der Parameter aber reines Curve Fitting und im Hinblick auf die künftig zu erwar- tenden Renditen bloß Augenwischerei. Auf eine derart „entwickelte“ Strategie ein investierbares Produkt aufzulegen, ohne den dahinterliegenden Prozess offenzulegen, ist nach Einschätzung der Forscher unehrlich. Im Idealfall sollten die Strategien mit Out-of-Sample-Tests in anderen Ländern, Märkten oder Datenzeit- räumen auf ihre Robustheit hin untersucht werden, um überhaupt Vertrauen in die Ergebnisse haben zu können. Subtile Manipulation Die Methoden, mit denen sich statistisch signifikante Ergebnisse bewusst erzielen lassen, sind nicht nur vielfältig, sondern im Detail von außen auch kaum nach- vollzieh- beziehungsweise überprüf- bar. Beispiele für p-Hacking sind laut Campbell Harvey: 1) Untersu- chung einer Vielzahl von Variablen, von denen dann nur die besten für die Studie ausgewählt werden, 2) Transformation von Variablen wie etwa Volatilitätsskalierung, um eine bessere Anpassung zu erreichen, 3) Selektion bestimmter Zeiträume zur Maximierung des Signifikanzniveaus, 4) Ausschluss bestimmter Extrem- phasen (globale Finanzkrise oder Coronacrash) für eine höhere Aussa- gekraft der Ergebnisse, 5) Variation der Methodik, zum Beispiel gewich- tete kleinste Quadrate statt einer normalen Regression. Viele dieser Praktiken gelten in der Forschung als Fehlverhalten, sind aber für Redakteure, Gutachter und Inves- toren schwer zu erkennen. Zum Beispiel kann ein Forscher 100 Variablen ausprobie- ren und nur über die eine berichten, die funktioniert. Wer aber weiß, dass 100 Vari- ablen getestet wurden, weiß auch, dass etwa fünf davon schon rein zufällig „signifikant“ sein würden. p-Hacking Die Gefahr für p-Hacking ist laut Harvey in der akademischen Welt größer als in der Praxis. Denn in der Forschung geht es hauptsächlich um die positiven Anreize, die mit Veröffentlichungen verbunden sind, während es in der Kapitalmarktpraxis um echtes Geld geht. Zum Beispiel sollen bei Produkten auch Performancegebühren ver- dient werden, bei denen der Anbieter von einer guten Entwicklung nach Auflage pro- fitiert. Deshalb wissen viele Profis um die Gefahr überoptimierter Backtests und wäh- len moderate, realistische Varianten. Außer- dem möchten die Anbieter ihre Reputation wahren, sodass ihnen die Performance auch abseits der Gebühren nicht egal sein kann. Weitere Baustelle Neben p-Hacking beschreibt das Paper von Research Affiliates noch weitere Effek- te, die Anleger teuer zu stehen kommen. Ein Beispiel ist das klassische Performance Chasing. Dies zeigt sich etwa in Form neu aufgelegter Themen-ETFs für bestimmte Marktnischen, nachdem diese starke Kurs- anstiege verzeichnet haben. Meist enttäu- schen diese Produkte dann über Jahre hin- weg. Ein ähnlicher Effekt lässt sich auch beim Faktor-Investing beobachten. Histo- risch gut gelaufene Faktoren werden dabei als besonders attraktiv angepriesen oder miteinander kombiniert. Doch nicht immer handelt es sich dabei um strukturelles Alpha, das auch in Zukunft nach Abzug der Kosten noch funktioniert. Neubewertungseffekt Es kann sich auch (oder zum Teil) um einen temporären Neubewer- tungseffekt handeln, der sich erst auf den zweiten Blick offenbart. Das ist oft der Fall, wenn bestimmte Fakto- ren gerade populär sind. Dann kann deren relatives Bewertungsniveau gegenüber dem breiten Markt stei- gen, ohne dass dies eine fundamen- tale Bedeutung haben muss. Einzel- ne Strategien, Faktoren, Anomalien und quantitative Modelle kommen sozusagen in beziehungsweise aus der Mode und entwickeln sich des- halb im Zeitablauf vorübergehend relativ besser oder schlechter. Es kann deshalb gefährlich sein, auf einen zuletzt besonders perfor- manten Faktor zu setzen. Hohe ver- gangene Renditen können auf künf- tige Underperformance hindeuten, » Oft können beeindruckende Backtests im Live-Handel nicht repliziert werden. « Campbell R. Harvey, Professor of Finance, Fuqua School of Business at Duke University & NBER Research Associate Falsche Entdeckungen dominieren Warum die meisten Strategien nicht funktionieren Annahme: Die Wahrscheinlichkeit, dass eine getestete Strategie in der Praxis profitabel ist, beträgt ein Prozent. Bei der üblichen in Signifi- kanztests genutzten Schwelle von fünf Prozent und einer (optimistischen) statistischen Power von 80 Prozent ist zu erwarten, dass bei 1.000 Versu- chen 58 Entdeckungen gemacht werden. Davon wären acht richtig-positiv und 50 falsch-positiv. Das heißt: Rund 86 Prozent der „entdeckten“ Strategien wären falsch (50 von 58). Marcos Lopez de Prado, von dem das Original dieser Grafik stammt, schreibt, dass die Quote an den Finanz- märkten in Wahrheit noch deutlich höher liegt. Quelle: Lopez de Prado, M. (2019), The 7 Reasons Most Econometric Investments Fail, S. 24 990 falsche Strategien 10 wahre Strategien 1.000 Strategien 8 richtig Positive 2 falsch Negative 50 falsch Positive 940 richtig Negative 0,01 0,05 0,8 104 N o. 3/2022 | www.institutional-money.com T H E O R I E & P R A X I S | BACKT E S T I NG UND DATA MI N I NG FOTO: © DUKE UNIVERSITY

Institutional Money, Ausgabe 3 | 2022