#97 Metriken, Hypothesen und Fehler: A/B-Testing in der Praxis mit Philipp Monreal

Kontinuierliches Lernen mit Hilfe von Experimenten und A/B-Testing

In vielen Diskussion geht es darum, welche Lösung die bessere ist und einen größeren Impact hat. Viele Entscheidungen werden aus dem Bauch heraus getroffen, obwohl gesagt wird, dass wir datengetrieben arbeiten. Doch Daten und Ergebnisse sind oft nicht vorhanden. Experimente mit A/B-Tests sind für solche Situationen das Mittel der Wahl.

Hypothese aufstellen. Experiment umsetzen und durchführen. Ergebnis evaluieren. Und das ganze wiederholen. Klingt einfach.Experimentelles Mindset: Check. Doch wie macht man sowas denn im Detail? Auf welche und wie viele Metriken schaut man während eines Experiments? Wie lange darf es dauern? Kann ich das ganze auch mit wenig Kunden und Traffic umsetzen? Was sind die typischen Fehler beim A/B-Testing? Was ist ein p-Wert, eine statistische Signifikanz, eine Power-Analyse, ein A/A-Test, der Priming-Effekt?

Das und noch viel mehr in dieser Episode mit unserem Gast Dr. Philipp Monreal.

Bonus: Ob A/B-Testing mit Podcast-Episoden-Titeln für normale Podcast-Hosts möglich ist.

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Sprungmarken

(00:00:00) Intro

(00:01:01) Unser Gast: Philipp Monreal

(00:03:06) Experimenten in der Softwareentwicklung und das experimentelle Mindset

(00:07:46) Hypothesengetriebene Entwickeln und die Implementierung einer Lernkultur

(00:14:29) Metriken für Experimente und die Verteilung von Test- und Kontrollgruppen

(00:26:45) Statistisches Rauschen, der p-Wert, die Nullhypothese und statistische Signifikanz

(00:35:30) "Extraordinary claims, require extraordinary evidence" und "Any figure that looks interesting or different is usually wrong"

(00:41:49) Günstiges Testen im Tech-Bereich

(00:45:31) Mehrere Tests gleichzeitig durchführen

(00:49:57) Storytelling als Ergebnis-Präsentation und Kontrolle der Daten

(00:58:00) Vorbereitung und Nachbereitung von Experimenten

(01:01:44) Lernen als wichtiger Faktor in der Organisation Vermeidung von "Hippos"

(01:06:31) Podcast-Titel-Tests mit A/B-Testing

Hosts

Wolfgang Gassler (https://mastodon.social/@woolf)
Andy Grunwald (https://twitter.com/andygrunwald)

Feedback (gerne auch als Voice Message)

EngKiosk Community: https://engineeringkiosk.dev/join-discord
Email: stehtisch@engineeringkiosk.dev
Mastodon: https://podcasts.social/@engkiosk
Twitter: https://twitter.com/EngKiosk
WhatsApp +49 15678 136776

Transkript

Das Transkript wurde automatisiert per Speech-to-Text erstellt und kann daher Fehler enthalten.

Andy Grunwald (00:00:04 - 00:00:56)

In vielen Diskussionen geht es darum, welche Lösung die bessere ist und einen größeren Impact hat. Viele Entscheidungen werden aus dem Bauch heraus getroffen, obwohl gesagt wird, dass wir datengetrieben arbeiten. Doch Daten und Ergebnisse sind oft nicht vorhanden. Experimente wie A-B-Tests und ein passendes Mindset können in solchen Situationen helfen. Hypothese aufstellen, Experiment umsetzen, Ergebnis evaluieren und das Ganze wiederholen. Klingt einfach. Experimentelles Mindset? Check! Doch wie macht man sowas denn im Detail? Auf welche und wie viele Metriken schaut man während eines Experiments? Wie lange darf es dauern? Kann ich das Ganze auch mit wenig Kunden und Traffic umsetzen? Was sind die typischen Fehler beim AB-Testing? Und was ist eigentlich ein P-Wert, eine statistische Signifikanz, eine Power-Analyse, ein AA-Test oder der Priming-Effekt? Das und noch viel, viel mehr in dieser Episode mit unserem Gast Dr. Philipp Monreal. Viel Spaß!

Wolfi Gassler (00:01:01 - 00:01:10)

So, Andi, jetzt erklär mal unseren guten ZuhörerInnen, warum wir remote miteinander telefonieren, obwohl ich in Düsseldorf bin.

Andy Grunwald (00:01:10 - 00:01:23)

Es fängt alles immer mit dem Kegelclub an. Jeder, der im Kegelclub ist, weiß, dass man Mitgliedsbeiträge für ein großes Event pro Jahr zahlt. Die Kegeltour. Die war am vergangenen Wochenende. Was habe ich mit nach Hause genommen? Corona.

Wolfi Gassler (00:01:23 - 00:01:24)

Gratuliere.

Philipp Monreal (00:01:24 - 00:01:25)

Lohnt sich.

Wolfi Gassler (00:01:25 - 00:01:28)

Die Konferenzenseuche quasi. Nur, dass es keine Konferenz war.

Andy Grunwald (00:01:29 - 00:01:50)

Meines Erachtens nach verschieben wir den Podcast aber, ich sag mal so, im Modus der modernen Arbeitswelt. Erst waren alle remote und jetzt langsam gehen sie wieder hybrid und zurück ins Büro, drei Tage die Woche. Und genau das tun wir heute auch, denn wir haben heute mal wieder einen Gast. Wir haben aber ein Hybrid-Setup. Der Wolfgang, der Österreicher, sitzt in einer Düsseldorfer Wohnung.

Wolfi Gassler (00:01:50 - 00:01:53)

Ich bin extra nach Düsseldorf gereist für unseren heutigen Gast.

Andy Grunwald (00:01:53 - 00:02:06)

Vor Ort die erste In-Persona-Aufnahme. Ich, der eine Stadt weiter wirklich wohnt, sitze zu Hause im Büro mit Corona. Na ja, schauen wir mal, ob dieses Hybrid-Arbeiten so wirklich funktioniert.

Wolfi Gassler (00:02:06 - 00:02:10)

Also ein sehr experimentelles Setup und das ist genau das Thema, worüber wir heute sprechen.

Andy Grunwald (00:02:10 - 00:02:16)

Und zwar haben wir von Experimentieren eigentlich relativ wenig Ahnung und haben uns deswegen einen Experten ins Haus geholt. Hallo Philipp.

Philipp Monreal (00:02:17 - 00:02:19)

Hi Andi, hi Wolfgang. Dankeschön für die Einladung.

Wolfi Gassler (00:02:19 - 00:02:21)

Freut mich. Ja, danke fürs Kommen.

Philipp Monreal (00:02:21 - 00:02:23)

Freut mich, dass ich hier sein kann, mit euch quatschen kann.

Andy Grunwald (00:02:23 - 00:03:06)

Lieber Philipp, du hast einen Doktor in angewandter Mathematik von der RWTH Aachen. Deine komplette berufliche Laufbahn dreht sich auch um Daten. Wir haben uns beruflich bei Trivago kennengelernt, da wurde unter anderem Business Intelligence Analyst und für den Marktplatz von Trivago verantwortlich warst. Danach hast du dir mal gedacht, okay ich gehe mal in die Energiewirtschaft und warst Head of Data bei Lichtblick und arbeitest inzwischen als Head of AI für Eneco, das ist, soviel ich weiß, ein niederländisches Energieversorgungsunternehmen. Und du hast 2015 mal ein Slide Deck, eine Präsentation mit dem Titel Street Fighting Mars gemacht. Und ich würde gerne wissen, welche Art von Mathe brauche ich, um Straßenkampf zu gewinnen?

Philipp Monreal (00:03:06 - 00:03:43)

Okay, danke für die Intro. Ist tatsächlich immer noch ein Thema, was mir sehr am Herzen liegt. Und zwar glaube ich, dass ein ganz nützlicher Skill, den viele von uns, auch Developer, sehr gut gebrauchen können, ist es, schnell Abschätzungen zu machen. Das ist so quasi das Pareto-Prinzip auf die Mathematik gemünzt, dass man nicht lange braucht, um ein exaktes Ergebnis zu finden, sondern wie man schnell eine einfache Abschätzung machen kann. Zum Beispiel, wie lange brauche ich, um MVP zu launchen. Dass man einfach, dass man gut darin wird, schnell zu schätzen, schnell zu überschlagen. Das war damals das Thema.

Wolfi Gassler (00:03:43 - 00:03:48)

Da räst du ja bei Andi die Türen ein, weil er ist ein Fan vom dreckigen Programmieren und alles schnell machen.

Andy Grunwald (00:03:48 - 00:04:11)

Sagte der, der ein eigenes Meetup-Anmeldesystem vor kurzem geschrieben hat und dann die typische Frage bekommen hat, hey, wieso registrieren sich eigentlich alle immer Bot-User hier? Kann ich jetzt selbst meine Bot-Detection bauen? Jeder normale Entwickler würde sagen, lieber Wolfgang, baue einfach mal ein Capture ein. Nee, ich habe gelesen, man baut ein Hidden-Secret-Input-Feld ein und Bots füllen eh immer alle Felder aus und deswegen baue ich jetzt meine eigene Bot-Detection.

Wolfi Gassler (00:04:11 - 00:04:22)

Ja, das war ein super Tipp von Frankie aus unserer Community übrigens, den ich in Düsseldorf getroffen habe. Also danke dafür. Das funktioniert nämlich wirklich. Die Bots sind jetzt ausgeschlossen vorerst.

Andy Grunwald (00:04:22 - 00:04:23)

War das dein erstes Experiment?

Wolfi Gassler (00:04:23 - 00:04:31)

Das war mein erstes Experiment, ja. Wobei mein Test-Setup natürlich sehr schwach ist, weil ich schaue einfach in den Logs nach, ob da irgendwo was auftaucht oder nicht.

Philipp Monreal (00:04:31 - 00:04:33)

Manuelle Body Detection.

Wolfi Gassler (00:04:33 - 00:04:34)

Genau, also quasi.

Philipp Monreal (00:04:34 - 00:04:35)

Ja, nein, nein, ja.

Wolfi Gassler (00:04:38 - 00:05:43)

Aber genau das ist das Thema von heute, wie man richtig testet und wie man richtige Experimente aufsetzt, weil wir Entwickler haben ja sehr oft damit zu tun eigentlich in irgendeiner Form und programmieren da im Hintergrund was. Aber was da eigentlich dann wirklich passiert und warum man das macht, da hat man entweder wenig Einblick oder man arbeitet halt weniger damit. Da hat man dann irgendwelche Data Scientists oder Data Leute, die das aufsetzen. Und da wollen wir mal ein bisschen Licht in das Ganze reinbringen, wie das denn so funktioniert grundsätzlich und warum man das überhaupt macht. Und da bist du ja absoluter Spezialist. Und ich kann mich nur erinnern an unsere Trivago-Zeit, wo man irgendwie hunderte Tests parallel am Laufen gehabt hat. Und irgendwo ist die Magic im Hintergrund passiert und dann ist irgendwo eine Zahl rausgeputzelt und man hat gewusst, die Änderung war gut. Der rote Button war besser als der blaue Button. Und man hat dann gewusst, wie man weitermacht. Aber wenn man so ein Setup angeht, so ein Experiment, wo startet man denn da? Wenn ich jetzt irgendwie auch mal ein kleines Produkt oder so am Start habe und ich möchte jetzt irgendwas ausprobieren, wo fange ich denn da überhaupt an grundsätzlich?

Philipp Monreal (00:05:43 - 00:06:01)

Ich glaube, das Wichtige ist, dass man anfängt mit dem Mindset und mit der Kultur. Dass man Klarheit schafft, was wollen wir hier überhaupt erreichen. Aus meiner Sicht ist der Purpose, der Sinn und Zweck vom Experimentieren ist, dass wir so schnell lernen wie möglich.

Wolfi Gassler (00:06:02 - 00:06:08)

Also das ist wie beim Streetfighting, dass man möglichst schnell an ein Ergebnis kommt. Seht ihr das richtig?

Andy Grunwald (00:06:08 - 00:06:10)

Kurze Frage, was ist das Ergebnis vom Streetfighting? Dass der Gegner K.O.

Philipp Monreal (00:06:10 - 00:06:46)

Ist? Ich ignoriere jetzt einfach beide eurer Aussagen. Dass man Purpose ist, in meinen Augen, dass man so schnell lernt, wie es geht. Meine persönliche Sichtweise ist, dass die Welt ist viel zu vuca, viel zu komplex, viel zu kompliziert, viel zu volatil. Es ist unrealistisch, dass man lange in die Zukunft plant. Und es ist unrealistisch, dass man von vornherein weiß, was der Effekt sein wird, wie ein Produkt ankommt, wie das Feature auf der Webseite von den Usern genutzt wird.

Wolfi Gassler (00:06:46 - 00:07:01)

Aber wenn jetzt ganz klassisch, das kennen wir ja alle, MVP-Ansatz, ich komme jetzt irgendwie schnell mit einem Produkt oder mit einem Feature raus, warum brauche ich da überhaupt mein experimentelles Setup? Ich kann ja einfach drauf losprogrammieren, habe jetzt dann mein Feature und das geht dann online und fertig.

Philipp Monreal (00:07:01 - 00:07:10)

Genau. Ich glaube, dass gehört total zusammen. Die agile, iterative Softwareentwicklung, die passt wie die Hand in den Handschuh mit dem experimentellen Mindset.

Wolfi Gassler (00:07:10 - 00:07:15)

Aber ist das dann schon ein experimentelles Mindset, wenn ich jetzt sage, ich bin MVP getrieben?

Philipp Monreal (00:07:15 - 00:07:32)

Nein, noch nicht. Das experimentelle Mindset ist dann, dass ich sage, okay, in jeder Iteration, die ich jetzt mache, will ich verstehen, bringt sie mich ein Stück dahin, wo ich hin will? Löse ich wirklich das Problem, was ich lösen will? Habe ich also Klarheit darüber, was überhaupt meine Hypothese, was mein Ziel ist?

Wolfi Gassler (00:07:33 - 00:07:40)

Das heißt, ich muss aber überhaupt mal ein Ziel definieren oder eine Hypothese. Was ist eine Hypothese? Ist Ziel und Hypothese dasselbe?

Philipp Monreal (00:07:40 - 00:07:46)

Nee. Eine Hypothese ist eine Formulierung, eine Annahme, was geschehen wird.

Wolfi Gassler (00:07:46 - 00:07:50)

Hast du da ein Beispiel aus der Praxis, was sowas sein könnte?

Philipp Monreal (00:07:50 - 00:08:39)

Klar. Also ich fange an mit einem Purpose. Und zwar sage ich, ich will ein Produkt bauen, das soll meinem Kunden ermöglichen, X zu tun. Ein Self-Service-Produkt. dass er nicht bei mir eine Hotline anrufen muss, um irgendwas nachzufragen, sondern dass er selber sich informieren kann. Da fange ich jetzt einfach mal an. Das ist jetzt das Problem, was ich lösen möchte. Und kommt das Team zusammen und überlegt, okay, was können wir machen? Wir können Website dafür bauen, wir können ein Chatbot implementieren, I don't know. Eine Hypothese ist, wenn ich dann sagen würde, indem wir ein Chatbot live nehmen, reduzieren wir die Anfragen per Telefon um 30 Prozent. Das wäre ein Beispiel einer Hypothese und ein Experiment ist etwas, das man tut, um diese Hypothese zu verifizieren.

Wolfi Gassler (00:08:39 - 00:08:40)

Oder zu widerlegen wahrscheinlich.

Philipp Monreal (00:08:40 - 00:09:05)

Oder zu widerlegen, genau. Und das heißt, in Quintessenz ist, worum es beim Experimentieren geht, ist, so schnell zu lernen wie möglich. Dass ich verstehe, das, was ich getan habe, funktioniert das, geht das in die Richtung, löst das das Problem, was ich lösen will. Und im besten Falle auch, dass ich das quantifizieren kann. Also wenn wir jetzt im Sinne von Conversion Rate denken oder so.

Wolfi Gassler (00:09:05 - 00:09:34)

Das heißt aber auch, dass ich die Antwort auf diese Hypothese oder die Validierung eigentlich nach hinten verschiebe, weil was man ja ganz oft und gern macht, ist in der Diskussion, zu sagen, das würde uns 30 Prozent dann Support-Hotline reduzieren und darum bauen wir das jetzt. Und dann nimmt man das schon an als gegeben und baut drauf los. Und in dem Fall nehme ich es aber nur mal an, beantworte das noch nicht, baue das Ganze und beantworte dann später wirklich mit Daten, ob das gestimmt hat oder nicht.

Philipp Monreal (00:09:34 - 00:10:28)

Genau. dieses Hypothesengetrieben entwickeln, das erlaubt auch am Anfang, dass man viel konstruktiver miteinander diskutieren kann. Sobald man Sachen quantifiziert und sobald man über Annahmen und Hypothesen spricht, kann man meiner Erfahrung nach viel konstruktiver miteinander diskutieren. Um ein Beispiel zu geben, wenn du zehn Leute vor ein Whiteboard setzt und dann überlegt man, wie kann ich Problem X lösen? Dann kommen dabei 20 Ideen raus und jeder argumentiert, nee, das ist aber besser und nee, das ist aber besser. Und dann kann man sich fröhlich stundenlang im Kreis drehen. Sobald man anfängt, seine Annahmen explizit zu machen, hat man viel greifbares Thema in der Diskussion. Kann man sagen, hey Wolfgang, warum glaubst du, dass dieses Feature von 50% der Leute wirklich genutzt wird? Ich glaube, die Annahme ist viel zu hoch. Ich glaube, höchsten 10% der Nutzer werden das jemals verwenden.

Wolfi Gassler (00:10:29 - 00:10:48)

Aber ich spare mir dann eigentlich die Diskussion, weil ich das eigentlich dann später beantworte. Ich brauche mir gar nicht festlegen, ist es 50 Prozent, ist es 10 Prozent. Ich kann natürlich was festlegen, wie weit es gehen soll, aber die Zahl, die dann am Ende rauskommt, die kommt ja dann später. Also ich muss jetzt nicht mich mit irgendwem festlegen auf eine Zahl, oder? Vielleicht auf eine Minimalzahl, die ich erreichen will.

Philipp Monreal (00:10:48 - 00:11:20)

Ich glaube, die Zahl, die Hypothese am Anfang, die bringt vor allem, dass man denkt, ist es das überhaupt wert? Wenn ich jetzt ein Produkt bauen will und von vornherein ist meine Annahme, das verwenden nur zwei Prozent der Nutzer und ein schlauer Softwareentwickler sagt hintendran, okay, das dauert aber drei Monate, das zu entwickeln, dann spart man sich das gleich von vornherein. Wenn man sagt, okay, Wenn das die Annahme ist vom Wert und das ist meine Annahme der Komplexität, dann brauche ich es gar nicht, in die Entwicklung einzusteigen.

Wolfi Gassler (00:11:20 - 00:11:22)

Also man muss wirklich alles ausprobieren.

Andy Grunwald (00:11:22 - 00:11:45)

Das bedeutet aber auch, ich meine kulturtechnisch, auf der einen Seite veränderst du die Diskussion und auch die Diskussionsgrundlage. Auf der anderen Seite muss natürlich auch eine ganze Menge Arbeit investiert werden, um die Hypothesen dann entweder zu verifizieren oder halt zu sagen, okay, die ist falsch. Das bedeutet auch, dass man in der Regel für eine Lösung vier Prototypen baut und diese testet, oder? Oder fünf oder wie viele Ideen noch immer auf dem Tisch sind.

Philipp Monreal (00:11:45 - 00:12:20)

Genau, dass man einfach kontinuierlich iteriert. So würde ich sagen. Du fängst mit einer Iteration an, schaust, ist die gut? Ist die gut genug? Und du überlegst, okay, will ich daran weitermachen oder will ich jetzt versuchen, ein anderes Problem zu lösen? Aber diese Kultur, ich glaube, man braucht als Unternehmen drei Dinge, glaube ich, die Teil von dieser Kultur sind. Das eine ist überhaupt, dass man die Bescheidenheit hat, sich einzugestehen, dass man meistens keine Ahnung hat, was passieren wird. Das hört sich im ersten Moment trivial an.

Wolfi Gassler (00:12:20 - 00:12:25)

Ich glaube, dass die meisten das nicht annehmen. Die meisten nehmen an, sie wissen alles.

Philipp Monreal (00:12:25 - 00:13:47)

Und das Schlimme ist, je erfahrener man ist, je länger man im Job ist, desto mehr nimmt das oder kann das tendenziell abnehmen. Ich weiß sowieso, was passieren wird. Ich weiß sowieso, dass das klappt. Ich weiß sowieso, dass das nicht klappt. Und das ist ein ganz wichtiger Punkt. Wenn man so drauf ist, wenn man einen Chef hat, der so drauf ist. Ich weiß eh, was der beste Marketing-Channel ist. Ich weiß eh, das Produkt fliegt nicht. Jungs, dann sparen wir uns erst mal die Arbeit. Das ist, glaube ich, schon mal der erste ganz wichtige, fundamentale Punkt, dass man sich eingesteht, dass man überhaupt lernen will, dass man zwar eine Idee, eine Annahme hat, aber es mag anders kommen. Ich glaube, das ist total wichtig da anzufangen. Wenn man von dieser Grundidee anfängt in der Kultur und sagt, okay, Lernen an sich ist für mich jetzt ein Wert, dann glaube ich, hat das total positiven Einfluss auf die gesamte Kultur. Weil wenn Lernen für mich ein Wert ist, dann ist es auf einmal nicht mehr schlimm, wenn ich einen Fehler mache, solange ich nur dadurch was Neues verstehe oder dadurch schlauer werde. Ich bin überzeugt, das ist fundamental nützlich. Das gibt so ein total angenehmer, wie sagt man, psychological safety. Dass man nicht mehr Angst haben muss davor, dass man irgendwas zerschießt. Und es gibt auch mittelfristig einfach die besten Ergebnisse, wenn ich meine Kultur darauf trimme, schnell besser zu werden.

Wolfi Gassler (00:13:47 - 00:14:24)

Das heißt, so ein Hypothesen getriebener Ansatz ist dann eigentlich eine Implementierung von so einer Learning Culture. Wenn ich die umsetzen will in meinem Unternehmen, dann ist das ein Punkt, der in diese Richtung dann geht und das überhaupt ermöglicht, wenn ich solche Hypothesen mache. Wenn ich so Hypothesen dann mich entschieden habe im Team, ich möchte eben das erreichen mit 30 Prozent, Was ist denn dann der nächste Schritt? Der klassische nächste Schritt ist einfach mal losprogrammieren. Aber muss ich dann irgendwie auf anderen Ebenen noch zusätzlich was sicherstellen, bereitstellen? Also wie kann ich das sicherstellen, dass das nicht der reine, was heißt Failure auf Deutsch?

Philipp Monreal (00:14:24 - 00:14:25)

Misserfolg.

Wolfi Gassler (00:14:25 - 00:14:29)

Misserfolg, genau. Klingt aber sehr eigenartig, Misserfolg. Aber dass das eben kein Misserfolg wird.

Philipp Monreal (00:14:29 - 00:14:44)

Also ich glaube, da fehlen noch zwei Sachen. Die eine Sache, die oft unterschätzt wird, ist, die eine Metrik zu finden. The one to rule them all. Man denkt, okay, ich ballere jetzt einfach einen Test raus und schaue mir zehn Metriken an und dann werde ich schon irgendwas lernen.

Wolfi Gassler (00:14:45 - 00:15:06)

Aber es setzt schon mal voraus, dass ich überhaupt Metriken habe. Also bei ganz vielen Projekten und Produkten habe ich ja womöglich gar keine Metriken. Oder vielleicht habe ich so Server Speed oder so, gerade wenn man im technischen Bereich unterwegs ist. Die Metriken, die du jetzt meinst, sind ja wahrscheinlich dann irgendwelche Metriken, die im Bezug zu dem Produkt stehen oder die mir helfen, meine Hypothese zu bewerten.

Philipp Monreal (00:15:06 - 00:15:19)

Genau, das ist ein ganz wichtiger Schritt und ich glaube, der wird oft total unterschätzt und oft auch vernachlässigt und ist auch in den meisten Fällen alles andere als trivial. Wie finde ich denn eigentlich eine Metrik, die das misst, woran ich wirklich interessiert bin?

Wolfi Gassler (00:15:19 - 00:15:30)

Wenn wir bei dem Beispiel bleiben mit den 30% Telefonsupport und ich mache jetzt da dieses Portal, wo sich meine Kunden selbstständig einloggen können, was wären da dann sinnvolle Metriken?

Philipp Monreal (00:15:30 - 00:15:32)

In diesem Beispiel würde ich jetzt sagen Kontaktvolumen.

Wolfi Gassler (00:15:32 - 00:15:35)

Also beim Telefonsupport.

Philipp Monreal (00:15:35 - 00:15:36)

Anzahl der Anrufe pro Tag.

Andy Grunwald (00:15:37 - 00:16:08)

Aber sollte man Metriken dann wirklich einzeln betrachten, weil wenn ich mir dein Beispiel jetzt rausnehme und wir betrachten den Zeitraum, wenn Deutschland gerade bei der Weltmeisterschaft spielt. Ich gehe mal stark davon aus, dass das Kontaktvolumen in einem Callcenter in Deutschland, wenn Deutschland ein WM-Spiel hat, relativ niedrig sein wird. Sollte man jetzt in deinem Beispiel dann zum Beispiel nicht die Anzahl der Logins in diesem Portal noch gegennehmen als zweite Metrik, um zu verifizieren, okay, die Leute sind wirklich von dem einen Telefonkanal auf den Webkanal gewechselt oder ähnliches?

Philipp Monreal (00:16:08 - 00:16:56)

Nee, das kommt später im Teil, wenn wir ein bisschen darüber quatschen, wie ich einen Test aufsetze und wie ich einen Test evaluiere. Also meine Message wäre, dass man erstens sich nur eine einzige Metrik nimmt, nicht mehrere. Ja, weil sobald ich mehrere Metriken habe, passiert in den meisten Fällen, dass derjenige, der die Idee hatte, möchte gerne, dass seine Idee gut war, weil das fühlt sich total klasse an. Und wenn ich mehrere Metriken habe, aus denen ich mir aussuchen kann, dann suche ich mir doch die aus, die zeigt, dass meine Idee geklappt hat. Und das ist so Punkt eins, eine Metrik in einem Test, in einem Experiment, nicht mehrere. Und die zweite ist, dass man Proxymetriken vermeidet, dass man wirklich das misst, woran man interessiert ist, dass man das misst, was man will.

Wolfi Gassler (00:16:56 - 00:16:57)

Was wäre eine Proxymetrik?

Philipp Monreal (00:16:58 - 00:17:44)

Bleiben wir bei dem Beispiel. Was ich eigentlich will, ist, das Kontaktvolumen im Callcenter zu minimieren. Jetzt sagt mir irgendjemand, ja, aber das Callcenter läuft über Applikation XYZ und da haben wir kein Logging und das geht nicht. Aber ich kann genau loggen, wie viele Seitenaufrufe mein Selfservice hat. Das wäre eine Proxymetrik. Und dann kann es passieren, dass mein Self-Service total viele Seitenaufrufe hat, dass da aber irgendwas draufsteht, was die Nutzer noch mehr verwirrt und deswegen noch mehr Leute anrufen. Das heißt, miss wirklich das, woran du interessiert bist, nämlich in dem Fall das Anrufvolumen, auch wenn du vielleicht neues Logging implementieren musst irgendwo, anstatt einfach nur die Seitenaufrufe dir anzuschauen, die im schlimmsten Falle vielleicht sogar das, was du eigentlich verbessern willst, verschlechtern.

Wolfi Gassler (00:17:45 - 00:18:06)

Und wie lange misse ich dann so eine Metrik? Woher weiß ich wann? Also bei dem Beispiel jetzt, wenn der Andi sagt, da ist jetzt irgendwie die Fußball-WM oder sonst was. Also wenn ich nur diesen Zeitraum nehme von der Fußball-WM, dann werde ich wahrscheinlich irgendwie komische Daten sehen. Aber wie lange macht denn dann Sinn? Ist es ein Tag, eine Woche, ein Monat, ein Jahr?

Philipp Monreal (00:18:07 - 00:18:24)

Das ist dann der Teil, wo wir darüber sprechen, wie designt man ein Experiment? Wie setze ich einen Test auf? Und was man dafür braucht, ist, dass man sich darüber unterhält, wie groß ist die Unsicherheit, die ich akzeptieren kann? Wie groß ist die Unsicherheit, die ich in Kauf, die ich bereit bin, in Kauf zu nehmen?

Wolfi Gassler (00:18:24 - 00:18:31)

Die Unsicherheit wären jetzt einfach Prozentabweichungen oder von diesen 30 Prozent, die eigentlich erreichen werden?

Philipp Monreal (00:18:31 - 00:20:18)

Jetzt mathematisch gesehen gibt es zwei Arten von Fehlern, die ich in einem Test machen kann. Das eine ist die Wahrscheinlichkeit, dass meine Aussage, dass ich falsch positiv bin, oder dass ich falsch negativ bin. Also, kommen wir mit dem Beispiel zurück. Wenn ich ein Chatbot implementiere, dann kann es sein, dass mein Test mir sagt, der Chatbot hat was gebracht, in Wirklichkeit bringt der aber gar nichts. Das wäre also falsch positiv. Falsch negativ wäre, der Test sagt mir, der Chatbot bringt gar nichts, in Wirklichkeit ist der total klasse. Das sind die zwei Arten von, strukturell die zwei Arten von Fehlern, die man machen kann. Und je nach Kontext, je nach Applikation sollte man besprechen, okay, was ist mir jetzt an der Stelle wichtiger? Ist es jetzt das, weiß ich nicht, das Feature, was ich jetzt baue, macht meine ganze Applikation langsamer? Also will ich wirklich sicher sein, dass das Feature was bringt, bevor ich das Ding sozusagen in den Code einbaue? Das kann sein. Es kann aber auch sein, dass ich sage, okay, diese Art von Fehler ist für mich nicht so relevant. Wenn ich aber einen Uplift holen kann, will ich den auf jeden Fall haben. Also das, glaube ich, gibt es keine Standard für. Beziehungsweise es gibt in der Industrie so ein bisschen so ein Standard. Es ist dann die berühmte p-Wert von 5% und die 20% im Typ 2. An der Stelle möchte ich aber sagen, das halte ich für totalen Schmarrn. Es ist blöd, sich da auf so einen Standardwert zu verlassen, sondern man sollte immer, wenn man so einen Test designt, sich darüber unterhalten, okay, was für Unwahrscheinlichkeiten, was für Wahrscheinlichkeiten bin ich bereit, in Kauf zu nehmen. Und dann gibt es einfache Webseiten, wenn man mathematisch Bock hat, kann man es auch selber versuchen zu implementieren. Gibt's eine Formel, die tippe ich ein, und dann kommt raus, aha, ich brauche x User in der Testgruppe und x User in der Kontrollgruppe. Und dann kann man, das ist deine ursprüngliche Frage, dann kann man die ursprüngliche Frage beantworten, wie lange muss so ein Test denn laufen?

Wolfi Gassler (00:20:18 - 00:20:35)

Jetzt hast du gesagt zwei Gruppen. Würdest du jetzt beim Design von dem Chatbot zum Beispiel, um den Support zu erleichtern, würdest du dann auch zwei Gruppen designen? Also eine Usergruppe, Kundengruppe, die keinen Zugriff hat auf den Chatbot und eine andere Gruppe, die den Zugang bekommt?

Philipp Monreal (00:20:35 - 00:20:38)

Genau so. Das ist die Grundidee von einem AB-Test.

Wolfi Gassler (00:20:38 - 00:21:03)

Das heißt, du müsstest dann aber beim Telefonsupport auch jeweils die Kundennummern abfragen, damit du die Zuordnung machen kannst, oder? Also aus welcher Testgruppe kommen die Kunden? Das heißt, das musst du im Vorhinein dann auch alles mitdesignen und festlegen und sicherstellen, dass du das eben auch trackst auf der Support-Seite, dass die Kundennummern mit aufgenommen werden und, und, und, dass das also wirklich im Vorhinein alles schon gesammelt wird, die Daten.

Philipp Monreal (00:21:03 - 00:21:16)

Richtig. Es gibt ja viele Plattformen, Experimentation-Plattforms, die dieses technische Problem lösen. Und das ist ein Aspekt, den die eigentlich alle haben, den man meistens, glaube ich, Feature-Flagging nennt, dass man eben genau diese Zuordnung macht.

Wolfi Gassler (00:21:17 - 00:21:44)

Wobei, die Zuordnung musst du ja dann wirklich, also du musst sicherstellen, dass dein Support zum Beispiel nach der Kundennummer fragt. Also wird wahrscheinlich eh immer der Fall sein, aber dass du das halt alles irgendwo aufzeichnest und das ja teilweise gar kein technisches Problem ist, sondern ein Prozessproblem oder ja, dass der Prozess halt so designt ist, damit du, dass du alle Daten auch wirklich mit aufzeichnest und danach verarbeiten kannst, irgendwo abgespeichert werden, damit die nicht die Kundennummer fragen und dann geht das irgendwo verloren, sondern dass das aufgezeichnet wird, getrackt wird, wie viele Anfragen kommen darüber hat.

Philipp Monreal (00:21:45 - 00:21:45)

Genau.

Andy Grunwald (00:21:45 - 00:22:00)

Aber dieses Kriterium, wonach unterschieden wird, das kann ja wirklich alles sein, oder? Ich meine, ich kann würfeln im Web und dann einfach eine Session zuweisen. Ich kann sagen, alle Benutzer aus Deutschland kommen in die eine Gruppe, alle aus Frankreich aus der anderen, oder?

Philipp Monreal (00:22:00 - 00:23:09)

Super, dass du das ansprichst. Nein, du musst würfeln. Die Entscheidung, ob ein Nutzer eine Test- oder eine Kontrollgruppe ist, die muss zufällig sein. Ihr habt bestimmt schon mal gehört, Doppelblindstudien im pharmazeutischen Bereich. Wenn ich von vornherein sage, ich schwenke jetzt mal auf ein anderes Beispiel, ich glaube, dass das jeder kennt. Ich will jetzt wissen, ob meine Pille den gewünschten Effekt hat, dass die Effekt X hat. Wenn ich von vornherein sage, okay, aber alle Männer kriegen jetzt die Pille mit dem Wirkstoff und alle Frauen kriegen jetzt den Placebo, dann ist das kein wirkliches Experiment. Also die Zuordnung muss zufällig sein und der Grund dafür ist ganz einfach. Die Welt ist kompliziert und es gibt unvorstellbar viele Zusammenhänge und dadurch dass ich die Zuordnung komplett zufällig mache, nämlich also diese, man nennt das Confounding-Variables, nämlich den Effekt von denen raus. Also es hat ja einen Impact, ob ich zum Beispiel bei der Customer-Hotline anrufe, hat es, glaube ich, einen Impact danach, je nachdem, wie alt ist ein Kunde. Die eine Altersgruppe ruft vielleicht mehr an als die andere. Es hat auch einen bestimmten kulturellen Impact. Es gibt, wenn ich aus bestimmten Ländern würde, wahrscheinlich lieber eine Customer-Hotline anrufen als aus anderen Ländern.

Wolfi Gassler (00:23:10 - 00:23:29)

Aber wenn wir bei dem Beispiel bleiben, mit dem Alter, würdest du dann, wenn man das zum Beispiel designt, dass man sagt, okay, ich möchte meine alten Kunden, die werden das sowieso nicht mehr auf die Reihe bekommen, ich baue dieses Feature jetzt nur für die Jungen, würdest du dann das trotzdem komplett randomisieren oder wirklich dann in den jungen Zielgruppen randomisieren?

Philipp Monreal (00:23:29 - 00:23:57)

Okay, dann randomisiere ich halt in den jungen. Aber der Punkt ist, am Ende des Tages, die Zuordnung in Test- und Kontrollgruppe muss zufällig sein. Sonst funktioniert die gesamte Statistik nicht mehr. Die Idee von der zufälligen Zuordnung ist, dass ich den Effekt von meiner Änderung messe. Und sobald ich mir selbstständig angucke, wer kriegt A, wer kriegt B, messe ich nicht nur den Effekt von meiner Veränderung, sondern messe ich auch den Unterschied zwischen diesen Menschen. Und ich kann es nachher nicht auseinanderhalten, was ist was.

Wolfi Gassler (00:23:57 - 00:24:17)

Also jetzt ganz praktisch gesprochen, wenn ich jetzt eine kleine Firma habe und zehn Kunden, kann ich dann überhaupt so ein Experiment designen, dass das funktioniert? Oder brauche ich da wirklich tausende Kunden? Also klar, es gibt diese Formel, aber jetzt wenn wir mal ganz einfach möglichst abstrakt denken, geht das überhaupt mit zehn Leuten oder ist das absolut unmöglich?

Philipp Monreal (00:24:17 - 00:25:23)

Es geht. Statistik und A-B-Testing, was wir heutzutage A-B-Testing nennen, was sonst Online Controlled Experiment heißt. Das kommt aus einer Zeit, in der es das Internet nicht gab. Das kommt aus einer Zeit, wo es diese Datenmengen nicht gab. Also ja, ich kann auch mit sehr kleinen Nutzerzahlen experimentieren. Ich kann mit sehr kleinen Nutzerzahlen nur große Effekte messen. Das ist auch logisch. Wenn ich 100 Nutzer habe auf meiner Plattform, dann kann ich keinen einprozentigen Effekt messen, weil je kleiner die Nutzerbasis, desto volatiler sind ja die Metriken E. Das heißt, ich kann dann nicht mehr das Signal vom Rauschen unterscheiden. Andersrum argumentiere ich immer, wenn ich eine kleine Nutzerbasis habe, dann interessieren mich auch nur die großen Effekte. Wenn ich eh nur 100 Nutzer auf meiner Plattform habe, dann brauche ich nicht wahnsinnig viel Zeit und Energie, da reinzustecken, dass ich 1% mehr Leads hole. Das ist einfach meine Energie nicht wert. Ich will nur die Sachen machen, die auch echten Impact haben.

Wolfi Gassler (00:25:24 - 00:25:34)

Aber das heißt, auch das kleine Startup kann sehr wohl AP-Testing machen. Auch wenn ich da jetzt meine 100 User habe oder 1000 aus den User, kann ich da sehr wohl sinnvoll Testergebnisse herausholen.

Philipp Monreal (00:25:34 - 00:25:44)

Kann und sollte in meinen Augen und von vornherein aber dann eben auf die Features zielen, wo ich meinen 20, 30 Prozent Impact habe auf die Leads, auf die Conversion.

Wolfi Gassler (00:25:44 - 00:26:01)

Und gerade nochmal, weil du gesagt hast, AP-Testing ist so alt, das heißt, das Klassische, was jetzt jeder kennt aus der Corona-Zeit, jeder weiß mittlerweile, es gibt diese Testgruppen und die Kontrollgruppen, genau das ist auch AP-Testing. Also es ist genau dasselbe, es ist nur ein anderes Wort für diese Anordnung von dem Experiment.

Philipp Monreal (00:26:01 - 00:26:11)

A-B-Testing ist eine umgangssprachliche Bezeichnung davon, dass man eine statistische Analyse macht, dass man den Effekt von einer bestimmten Veränderung isoliert.

Wolfi Gassler (00:26:11 - 00:26:16)

Also Pfizer hat damals auch einen A-B-Test mit den Corona-Impfungen gemacht sozusagen.

Philipp Monreal (00:26:16 - 00:26:26)

Ja, das ist ein sehr schlechtes Beispiel, weil die ganzen Corona-Impfungen, da wurde aus statistischer Sicht alles falsch gemacht, was überhaupt nur falsch gemacht werden kann. Deswegen ist das kein gutes Beispiel.

Wolfi Gassler (00:26:26 - 00:26:27)

Okay, dann bleiben wir bei den technischen Beispielen hier.

Andy Grunwald (00:26:28 - 00:26:45)

Aber du hast gerade vom statistischen Rauschen gesprochen. Und du hattest auch schon mal den Wert P50 vorher erwähnt. Kannst du uns mal ganz kurz einen Mathe-Crash-Kurs in zwei Minuten geben? A, was ist statistisches Rauschen? Und B, was ist eine magische Zahl P50?

Philipp Monreal (00:26:45 - 00:26:56)

Okay. Beim Experimentieren geht es darum, dass ich den Effekt messen will von einer Änderung, die ich mache, von einem neuen Feature, einem neuen Chatbot, einer anderen E-Mail, irgendwas.

Wolfi Gassler (00:26:56 - 00:26:58)

Einer neuen Farbe auf der Webseite.

Philipp Monreal (00:26:58 - 00:27:24)

Einer neuen Farbe, die berühmte 41 Shades of Blue von Google. Ja, ein ganz berühmter EV-Test. Und wenn ich jetzt weiß, was meine Metrik ist, ich habe jetzt meine Hypothese, dann Menschen sind unterschiedlich. Das ist ja das Wunderbare an Menschen. Und jeder einzelne Mensch verhält sich anders. Und ich kann nicht vorhersagen, welcher User was, wann, wie macht. Das ist, was ich mit Rauschen meine. Ich habe eine Varianz in jeder Art von Daten. Egal, was ich logge, egal, was ich messe.

Wolfi Gassler (00:27:24 - 00:27:25)

Varianz heißt Rauschen.

Philipp Monreal (00:27:26 - 00:28:08)

Genau, das heißt, wie irgendwas rauf und runter geht, sich ändert. Und wenn ich jetzt was ändere, dann möchte ich ja, dann habe ich jetzt auf einmal zwei Stränge an Daten, die ich mir jetzt anschaue, die in der Test- und der Kontrollgruppe, aber die haben natürlich beide so eine Varianz, die haben beide so einen Ausschlag. Und was die Statistik macht, ist dann zu schauen, wie kann ich das isolieren voneinander? Wenn ich weiß, wie hoch ist meine Varianz in meiner Metrik eh schon in der Vergangenheit und jetzt mache ich eine Änderung. Okay, wie sicher kann ich sein, dass der Unterschied, den ich sehe, zurückgeführt werden kann auf eine echte Änderung? Und wie wahrscheinlich ist es, dass ich diesen Unterschied, den ich sehe zwischen Test- und Kontrollgruppe, dass der zurückzuführen ist auf die Varianz?

Wolfi Gassler (00:28:09 - 00:28:15)

Und daher auch umso größer die Gruppen, umso kleiner ist dann die Varianz, was sich das dann ausgleicht.

Philipp Monreal (00:28:16 - 00:28:30)

Und das ist der berühmte p-Wert, der, glaube ich, schon sehr vielen Mathematikern und Statistikern Albträume bereitet hat, weil ihn wirklich absolut jeder falsch versteht.

Wolfi Gassler (00:28:30 - 00:28:39)

Es ist jetzt deine Chance, es allen richtig gut zu bringen. Also der p-Wert... Und noch dazu nur bei Audiospur. Das macht das Ganze noch ein bisschen schwieriger.

Philipp Monreal (00:28:39 - 00:29:08)

Der p-Wert, was man umgangssprachlich oft statistische Signifikanz nennt. Mathematisch bedeutet das, was ist die Wahrscheinlichkeit, dass ich einen Effekt dieser Größe sehe unter der Annahme, dass die Nullhypothese stimmt? Was ist die Nullhypothese? Nullhypothese ist, zwischen Test und Kontroll besteht kein Unterschied. Ich sage das nochmal. Nehmen wir an, ich gebe Leuten Placebos, Pillen, die nichts machen. Das nennt man statistisch die Nullhypothese.

Wolfi Gassler (00:29:08 - 00:29:11)

Also wenn beide quasi Traumzugruppe kommen.

Philipp Monreal (00:29:11 - 00:29:50)

Das macht nichts. Jetzt mache ich eine Test- und Kontrollgruppe, zufällig natürlich. und gibt denen aber beiden ein Placebo. Dann sehe ich ja auch durch das Rauschen, wenn ich mir das jetzt angucke, ich messe jetzt irgendwas, wie oft die Kopfschmerzen haben, ich habe jetzt eine Metrik, dann sehe ich ja immer einen Unterschied zwischen Test- und Kontrollgruppe. Mal haben die einen 2% mehr Kopfschmerzen, die anderen 3% weniger Kopfschmerzen. Und der p-Wert, die statistische Signifikanz, sagt, nehmen wir mal an, das ist ein Placebo, das ist die Nullhypothese. Nehmen wir mal an, das ist ein Placebo. Was ist die Wahrscheinlichkeit, dass ich einen Effekt von dieser Größenordnung sehe, wenn mein Treatment, wenn meine Änderung nichts macht?

Wolfi Gassler (00:29:50 - 00:29:55)

Also wenn alle Traubenzucker bekommen, wie groß sind die Abweichungen?

Philipp Monreal (00:29:55 - 00:29:55)

Genau.

Wolfi Gassler (00:29:55 - 00:30:00)

Und wenn die größer sind als diese Nullhypothese, dann weiß ich, dass es einen Unterschied gibt.

Philipp Monreal (00:30:00 - 00:31:31)

Wie wahrscheinlich das ist, genau. So, und das wirklich Tragische ist, dass diese statistische Signifikanz in der Tech-Welt überhaupt benutzt wird, weil dieser p-Wert Der wurde erfunden in der Zeit, wo man hauptsächlich, hat man das ursprünglich benutzt, um herauszufinden, ob Medizin was tut. Das heißt, da war man wirklich daran interessiert, ist die Nullhypothese wahr oder nicht? Hat das überhaupt irgendeinen Effekt? Wenn wir was an der Webseite ändern, dann ist die Nullhypothese ja per Definition falsch. Wir wissen ja, dass was anders ist. Wir wissen ja, dass das kein Placebo ist. Wir haben ja ein Chatbot implementiert. Das ist ja auf keinen Fall ein Placebo. Wir wissen ja per Definition, dass die Kunden was anderes sehen. Das heißt, wir missbrauchen ein statistisches Modell, eine statistische Berechnung, die für diesen Fall total erschmarrn ist. Das ist total tragisch, weil wir benutzen ein statistisches Instrument, was gar nicht das tut, was wir eigentlich wollen. Und es ist eine ganz berühmte Fehlinterpretation, dass die Leute sagen, oh, die statistische Signifikanz ist 5 Prozent, also ist mit 95 Prozent Sicherheit, dass der Chatbot besser ist. Das ist falsch. Das ist ein Statistiker, reißen sich die Haare seit Jahrzehnten aus, weil alle das so annehmen. Und es gibt Paper und Paper und Paper. Aber wir haben es noch nicht geschafft, das sozusagen so gut zu kommunizieren und ein so gutes alternatives Konstrukt rauszubringen, dass die Leute aufhören, dieses schreckliche Statistische Signifikanz zu verwenden.

Wolfi Gassler (00:31:32 - 00:31:34)

Also es gibt auch keine sinnvolle Alternative oder schon?

Philipp Monreal (00:31:34 - 00:32:36)

In meinen Augen gibt es die doch. Das ist dann, was man Newton-Statistik nennt. bei Usain Statistics, habt ihr vielleicht schon mal gehört, da spricht man immer von bedingten Wahrscheinlichkeiten und von prior und posterior, dass man also anschaut, ok, wie Wie ist die Wahrscheinlichkeitsverteilung vorher? Und wenn ich eine Änderung mache, wie ist die Wahrscheinlichkeitsverteilung später? Das ist in meinen Augen der mathematisch-statistisch gesehen bessere Weg. Nur ist der Output von so einem Test am Ende eine Wahrscheinlichkeitsverteilung, die für einen Endnutzer, der so ein Experiment jetzt macht und sich anschaut, im ersten Moment erst mal schwerer zu verstehen ist. Da fällt dann nicht so eine Zahl raus. sondern da fällt dann auf einmal so eine Verteilung raus. Und dann sage ich, hey, aber Philipp, ich wollte doch nur wissen, ob das besser ist oder nicht. Jetzt ist da so eine komische Kurve. Was soll das? Und dann spart man sich es leider an den Analysten, die einem das interpretieren. Und deswegen nutzt man tragischerweise eben ein Instrument, was eigentlich gar nicht, was man falsch verwendet.

Wolfi Gassler (00:32:36 - 00:32:47)

Aber das grundsätzliche Design mit Hypothese und so weiter, das bleibt grundsätzlich gleich. Es ist dann nur auf der Auswertungsseite ein Unterschied. Oder ist dann mein Setup auch schon ganz anderes?

Philipp Monreal (00:32:47 - 00:32:53)

Richtig. Die grundsätzliche Hypothese, die Metrik, das Logging aus technischer Sicht, das bleibt alles genau gleich.

Andy Grunwald (00:32:55 - 00:33:14)

Ich habe gerade so ein bisschen Angstzustände, Angstschweiß gehabt. Du hast Begriffe genannt, die mein Professor damals in Statistik 1 in meinem Wirtschaftsinformatikstudium auch genannt hat. Ich glaube Statistik 1 habe ich mit ganz knapp 3,7 bestanden. Also ich möchte jetzt hier nicht mehr reden.

Philipp Monreal (00:33:15 - 00:33:58)

Ich finde das total schade, dass das bei dir so eine negative Assoziation hervorruft. Ich finde Mathe cool. Ich glaube, das ist sowieso klar. Aber ich finde es auch schade, dass so viele Leute so eine früh geprägte Aversion gegen Kandidaten haben. Bei wirklich allen anderen Dingen auf der Welt ist jedem kleinsten Kind klar, das ist Übung. Natürlich kann ich kein Klavier spielen, wenn ich das noch nie probiert habe. Ich muss das halt üben, dann werde ich besser. Ob das Fußball ist oder Python-Coding oder Vorträge halten, alles ist Übung, ist jedem klar. Nur bei Mathe, da denken die Leute aus irgendeinem Grund, das kann man entweder oder man kann es nicht. Und ich kann es jetzt nicht. Ich finde es tragisch, finde ich total schade.

Wolfi Gassler (00:33:58 - 00:34:00)

Ja, kann ich gut nachvollziehen. Ja, das stimmt.

Andy Grunwald (00:34:01 - 00:34:18)

Jetzt hast du gesagt, wir werten die Tests eigentlich alle falsch aus, weil wir alle die einfache Antwort haben wollen. Wir wollen, ist das besser oder nicht. Ist denn die richtige Antwort, okay, wir müssen jetzt mehr Analysten heirn, damit wir diese Verteilung interpretieren können, oder gibt es noch einen alternativen Weg, wie man die Antwort vielleicht auch einfacher gestalten kann?

Philipp Monreal (00:34:19 - 00:35:16)

Man kann der einfachen Antwort dann trauen, wenn man eben die statistischen Methoden auch so benutzt, wie sie gedacht sind. Also wenn man von vornherein die Hypothese aufschreibt, wenn man sich von vornherein auf die Metrik einigt und die hinten raus irgendwie sich dann aussucht. Wenn man von vornherein überlege, haben wir uns geeinigt darüber, was sind unsere Wahrscheinlichkeiten, unsere Unsicherheiten, die wir akzeptieren wollen. Und wenn man dann wirklich nach den Parametern ein Experiment auch macht und dann auch analysiert, dann ist alles gut. Also es ist nicht sozusagen die Statistik, die falsch ist oder so. Die Methoden sind da. Und ganz ehrlich zu sein, in den letzten Jahrzehnten, glaube ich, hat sich auch in der Statistik als solche relativ wenig geändert. So die großen Statistiker, die so in den 30ern, 40ern, 50ern, Wald und so, im eigentlichen statistischen Modell hat sich nicht schrecklich viel geändert seit Wald und Bayes. Gibt schon seit Jahrzehnten. Es ist tatsächlich, wie wir dieses Instrument verwenden.

Wolfi Gassler (00:35:17 - 00:35:31)

Jetzt hast du schon gesagt, ein großer Fehler ist, dass man die Metrik im Nachhinein einfach so mal aussucht und sich nicht im Vorhinein festlegt. Gibt es noch irgendwelche anderen typischen Fehler, die man so gerne sieht oder die man machen kann, wenn man mit dem mal einfach losstartet?

Philipp Monreal (00:35:31 - 00:36:43)

Ja, also es gibt so zwei wissenschaftliche One-Liner, die ich glaube, die total gesund sind, wenn man sie einfach im Kopf hat. Das eine nennt man Sagan Standard nach dem Wissenschaftler Carl Sagan. Der hat gesagt, extraordinary claims require extraordinary evidence. Hört sich erstmal so nach gesundem Menschenverstand an. Hört sich total logisch an. Wenn ich was behaupte, was sich total verrückt anhört, brauche ich wirklich, wirklich starke Beweislage. Wenn ich was behaupte, wo alle im Raum sagen, ja, klar, dann muss ich auch nicht so viel da reinstecken, das verifizieren. Und ich glaube, diese Idee von gesundem Menschenverstand, die tut jedem gut. Und auch da wieder ist so ein Ding, im ersten Moment nickt man natürlich mit dem Kopf, ja, ist doch klar. Habe ich persönlich in meiner Karriere aber schon oft genug gesehen, ich weiß nicht, ihr vielleicht auch, wo dann auch Daten einfach blind getraut wurde, wo was rauskam, wo ihr gesagt habt, hä? Wie kann denn das sein? Da stand dann Conversion Rate Impact plus 30% und man launcht das Feature. Und das wäre dann so ein Moment, wo ich denke, okay, lasst den AB-Test doch einfach nochmal machen. Genauso wie er war.

Wolfi Gassler (00:36:43 - 00:36:52)

Das wäre so das Beispiel von der Fußball-WM, oder? Wenn plötzlich niemand mehr anruft bei der Support-Hotline, ist komisch. Also dann kann es vielleicht nicht der JetBot gewesen sein, sondern es ist die Fußball-WM.

Philipp Monreal (00:36:53 - 00:37:25)

Ja, und so der zweite One-Liner, den ich den Leuten gerne mitgeben möchte, ist Twyman's Law, heißt es. Im ersten Moment hört es sich ein bisschen zynisch an, aber auch das ist, glaube ich, ein ziemlich gesunder Spruch. Any figure that looks interesting or different is usually wrong. Also ganz wichtiger Spruch erzähle ich immer, wenn ich Analysten oder Data Scientists einstelle, erzähle ich ihnen diesen Spruch immer zehnmal, damit sie ihn nicht vergessen. Any figure that looks interesting or different is usually wrong. Also...

Wolfi Gassler (00:37:25 - 00:37:32)

Das heißt eigentlich, es ist schwerer, was zu beweisen, als es sich vielleicht darstellt. Ist das richtig?

Philipp Monreal (00:37:32 - 00:38:26)

Ich glaube, dass es... Also meine Interpretation davon ist, man sollte in keins der beiden Extreme fallen. Eben haben wir so ein bisschen... Also ganz am Anfang habe ich davon gesprochen, man braucht so diese Kultur, dass man sich überhaupt erst mal eingesteht, dass man nicht genau weiß, was passieren wird. Das wäre das eine Extrem. Das andere Extrem, Das ist aber genauso falsch und genauso dumm, dass ich sage, ich vertraue jetzt blind 100 Prozent komplett nur der Statistik. Das ist genauso doof, das andere Extrem. Meine Interpretation ist, wenn ich jetzt Daten sehe, wenn ich jetzt eine Metrik sehe, die für mich gar keinen Sinn macht, aber ich vertraue ja einfach blind, dann bin ich auch irgendwie auf dem Holzweg. Der Königsweg ist dann in meinen Augen, wie schaffe ich es, Intuition, Menschenverstand, Erfahrung zu kombinieren mit so einer bescheidenen Attitüde und dem, was ich lernen kann aus Daten, Statistik und Hypothesen.

Wolfi Gassler (00:38:27 - 00:38:53)

Wenn ich jetzt als ganz normaler Entwickler oder Entwicklerin da jetzt ein Problem habe, ich arbeite in einem Startup, in einem kleinen, gibt es dann irgendwie Möglichkeiten, dass ich da mal losstarte, ohne jetzt einen Analysten zu hirnen? Ist immer schlecht, wenn man mit den Spezialisten redet, weil die sagen meistens, es braucht einen Spezialisten. Aber was ist deine Einschätzung? Kann man sowas in sinnvoller Zeit lernen oder so viel Einblick gewinnen, dass man da was auf die Beine stellen kann?

Philipp Monreal (00:38:54 - 00:39:49)

Ja, also nochmal, das ist meinen Augen technisch, mathematisch ein gelöstes Problem. Es gibt die Statistik, es gibt die technischen Plattformen, es gibt die Tools, das in den Deployment-Prozess einzubauen. Das macht auf jeden Fall, denke ich, Sinn, dass man sich, wie immer, dass man sich mit den Basics vertraut macht, wie irgendetwas funktioniert. Aber es gibt genug Tools, Plattformen, Technologien auf dem Markt, die ich verwenden kann. Vielleicht an der Stelle auch einfach ein Link für die, die irgendwie tiefer reingehen wollen. Also es gibt zwei, die ich persönlich sehr empfehlen kann. Das eine ist der Ron Kohavi, absoluter Thought Leader in dem Feld, sowohl aus wissenschaftlicher Sicht, also den Stanford-Promovierter auch gelehrt, aber auch aus Industrie-Sicht. Der war dann Vice President bei Microsoft, war Director bei Amazon, war bei Airbnb. Der hat jede Menge Bücher, Online-Kurse, Blogs. Kann ich total empfehlen, Monko Habi. Richtig guter Typ.

Wolfi Gassler (00:39:49 - 00:39:50)

Verlinken wir natürlich in den Show Notes.

Philipp Monreal (00:39:50 - 00:40:22)

Und der zweite, die vielleicht auf die Mathematik auch ein bisschen Bock haben, ist ein Professor, der nennt sich Andrew Gellman. Der ist Professor in Columbia, glaube ich. hat auch einen Blog, hat auch sehr viele Paper, teilweise so für die breite Öffentlichkeit, teilweise wirklich für Experten geschrieben, aber wenn man Bock hat, in die Tiefe zu gehen und wirklich zu verstehen, warum Statistiker-Albträume über einen P-Value haben, dann ist das cool, das zu lesen. Und natürlich nicht die Marketing-Slogans von den Plattformen, bitte. Das ist, glaube ich, klar.

Wolfi Gassler (00:40:23 - 00:40:37)

Das heißt also, auch wenn man die Plattformen verwendet, muss man sich trotzdem in irgendeiner Form auskennen, beziehungsweise die Hypothesen und so weiter muss man ja trotzdem erstellen. Das heißt, alles was außenrum passiert, das nehmen mir die Tools und die Plattformen natürlich auch nicht ab.

Philipp Monreal (00:40:37 - 00:40:52)

Die Kultur, den Mindset, dass ich eine Metrik definiere, dass diese Arbeitsweise, diese Denkweise, das kann mir keiner abnehmen. Das können mir Konsulten zwar erzählen, aber das muss man auch wirklich leben.

Wolfi Gassler (00:40:52 - 00:41:11)

Wie siehst du das allgemein mit zu Tools und Plattformen, was sie selbst bauen? Können die auch in größeren Projekten dir weiterhelfen oder würdest du eher sagen, ab einer gewissen Größe muss man einfach sich das ganze Framework selbst irgendwie zusammenbauen? Wie ist da deine Erfahrung?

Philipp Monreal (00:41:11 - 00:41:38)

Ja, ich muss sagen, vor fünf bis zehn Jahren habe ich noch relativ stark Richtung Selbstbau argumentiert. Mittlerweile sind sowohl die technischen Plattformen und Frameworks als auch die statistischen Modelle, die Python Libraries, so gut, dass ich das kaufen kann. Ich denke, in den allermeisten Fällen ist es leichter, schneller, einfacher, sich das einfach einzukaufen.

Andy Grunwald (00:41:38 - 00:42:21)

Wenn ich dir so zuhöre, dann frage ich mich, warum macht das eigentlich nicht jeder? Und wenn ich da jetzt auch mal kritisch hinterfrage, weil du sagtest auch gerade, immer wenn eine Zahl oder ein Fakt sehr interessant aussieht, kann der falsch sein. Das ist so für mich jetzt gerade hier, das hört sich an wie ein Traum. Ist das denn hier auch alles richtig? Dann gibt es ja auch das Risiko, dass wenn ein AB-Test, ich sag mal auf gut Deutsch, in die Hose geht, besonders bei einem Startup, dass da natürlich auch ein kleiner oder vielleicht auch größerer finanzieller Schaden hinten dran steht. Ich meine, du testest ja mit deinem Produkt rum, du hast eine Hypothese, machst das vielleicht auf deiner kompletten Userbase und dann kann das natürlich, dass dein Ad-Spend oder dein Ad-Income oder was weiß ich, nicht richtig in die Binsen geht. Also, dass das auch richtig Geld kostet, dieser Test, oder?

Philipp Monreal (00:42:22 - 00:42:31)

Klar, aber es hat ja nichts mit dem Experimentieren zu tun. Wenn ich jetzt nicht experimentiere, wenn ich jetzt einfach so deploye, was auch immer ich da gecodet habe, dann geht es ja genauso in die Hose. Also klar.

Andy Grunwald (00:42:31 - 00:42:33)

Das ist korrekt, aber ich sehe die Zahl ja nicht.

Philipp Monreal (00:42:33 - 00:42:34)

Verstehst du?

Andy Grunwald (00:42:34 - 00:42:44)

Also ich weiß das ja nur nicht. Wenn ich den Test nicht mache, dann verliere ich vielleicht Geld, aber das weiß ich ja nicht. Wenn ich den Test mache, dann weiß ich ja wirklich, dass ich Geld verliere. Das ist ja schon psychologisch ein bisschen was anderes.

Philipp Monreal (00:42:44 - 00:43:47)

Ja. Klar. Und es gibt auch den Fall, also du sprichst jetzt auf den Fall an, dass ich nicht gerne, dass ich das nicht will, das Experimentieren nicht will. Anderes, worüber wir noch nicht gesprochen haben, ist teilweise ist es ja auch einfach schwer oder extrem teuer zu experimentieren. Also für uns, ich glaube, wir haben alle einen Tech-Background, deswegen denken wir jetzt an digitale Produkte. Und da ist Experimentieren sehr günstig bis kostenlos. Ich baue jetzt ein Auto. Ich bin jetzt Tesla und baue den Cybertruck. Das Ding ist Käse. Aber das ist halt unvorstellbar schwer, da zu iterieren und zu experimentieren. Ich kann ja einen Kunden schlecht in so einen Prototypen setzen. Das ist irre komplex. Das heißt, wir drei und ich nehme an, die meisten unserer Zuhörer sind in der total luxuriösen Situation, dass wir sehr gut experimentieren können. Viele Industrien, wenn ich ein Kraftwerk baue oder ein Auto oder sonst was, da kann ich nicht experimentieren. Oder es ist wahnsinnig teuer.

Andy Grunwald (00:43:47 - 00:44:08)

Schönes Beispiel. Die NASA hat gerade ein Software-Patch auf irgendeinen Satelliten geschickt, der seit 46 Jahren im Weltraum rumturnt. Und allein das Bespielen des Patches oder zumindest ein Command senden, dauert halt 17 Stunden oder so. In einem solchen Environment kann man halt leider auch nicht wirklich experimentieren, weil wenn der Software-Patch irgendeinen Fehler hat, dann ist der Satellit halt hops.

Wolfi Gassler (00:44:08 - 00:44:25)

Ja, es sind ja auch die Laufzeiten viel kürzer. Also bei digitalen Produkten hast du sofort Daten, aber wenn du jetzt auch medizinische Studien oder so hast, die laufen ja teilweise ewig oder Jahrzehnte im schlimmsten Fall. Und online hast du einfach im besten Fall eine Stunde später die Daten.

Philipp Monreal (00:44:25 - 00:44:47)

Genau. Und so gesehen vor kurzem in den Studien für die Corona-Medikamente, die in tragischerweise vielen Fällen einfach hart verkürzt wurden. wo der Statistiker gesagt hat, okay, wir brauchen jetzt so viele tausend Leute und müssen die jetzt so und so lange beobachten. Und da hat man einfach gesagt, nach zwei Wochen, ah, das ist bestimmt gut. Komm, das hauen wir raus. Ich habe hier irgendwie Druck. Wir brauchen das jetzt.

Wolfi Gassler (00:44:47 - 00:45:06)

Aber die hatten wenigstens viele User an sich. Das war schon ein gewisser Vorteil natürlich. Und dass man die leichter bekommt, vor allem. Das ist ja sonst schon schwieriger. Alleine Kranke zu finden, also die, die Corona infiziert sind, ist ja leichter gewesen, als wenn du irgendwie keine FSME oder so testen willst.

Andy Grunwald (00:45:06 - 00:45:31)

Wenn wir über Experimentieren sprechen und über Testing, dann hört man von zumindest von den sehr großen Firmen ja auch oft, dass sie nicht nur ein A-B-Test fahren, sondern vielleicht einen A-B-C-Test fahren oder zwei A-B-Tests auf der Plattform fahren. Inwieweit wird die ganze Thematik mit Hypothese, Berechnung, Signifikanz und Co. eigentlich schwieriger, umso mehr Tests man gleichzeitig fährt? Experiment, Entschuldigung.

Philipp Monreal (00:45:32 - 00:46:54)

Auch da, das ist für mich ein Teil von dem Design von einem Experiment. Teilweise möchte ich verschiedene Varianten gegeneinander testen. Ich möchte jetzt wissen, welcher Farbton am besten ankommt. Dann lohnt sich das, verschiedene Varianten nebeneinander zu halten. Es gibt verschiedene Arten, das zu tun. Was mittlerweile sich als Best Practice etabliert hat, ist Multi-Armbanded, wo ich dann verschiedene Varianten gleichzeitig live schicke und die nicht nur gegeneinander auswerte, sondern auch noch gleichzeitig einen Mechanismus einbaue, der während der Test läuft, die Populationen verschiebt. Also wenn ich jetzt Variante 1 bis 5 habe und ich sehe schon ziemlich schnell, 5 performt total mies, dann lasse ich sozusagen diese Variante aussterben. Dann kriegt die weniger und weniger und weniger Nutzer kriegen das dann zu sehen, bis es irgendwann weg ist. Das heißt, ich evaluiere nicht nur die Metrik zwischen den Varianten, sondern ich adaptiere auch dynamisch, wie viel Prozent der Nutzer welche Variante sehen. Das hat sich als Best Practice, glaube ich, relativ gut etabliert, auch da die Methoden dafür sind gegeben. Das ist jetzt allerdings wirklich ein Fall, den man in meinen Augen nur machen kann, wenn man eine große Nutzerzahl hat. Da reden wir jetzt wirklich von, wenn ich jetzt 100, 200 Nutzer habe, da kann ich nicht fünf Varianten gleichzeitig gegeneinander testen. Das ist, denke ich, das klappt nicht.

Wolfi Gassler (00:46:54 - 00:47:23)

Und dasselbe gilt wahrscheinlich, wenn ich mehrere Experimente parallel machen will. Also wenn das klassische Problem, was man ja immer so vor Augen hat, ist, man misst, wie viele Leute konvertieren, irgendwas einkaufen in meinem Shop zum Beispiel. Und ich ändere einmal die Button-Farbe, aber irgendein anderer Test ändert, keine Ahnung, den Checkout-Prozess oder so. Dann spielen die ja gegenseitig unter Umständen mit rein und ich kann wenig Aussage treffen, ob der eine oder der andere jetzt mehr negativen Impact hatte oder positiven oder was es dann auch immer ist.

Philipp Monreal (00:47:24 - 00:47:35)

Das Problem kann man vergessen. Ich versimplifiziere jetzt die Aussage so ein bisschen. Prinzipiell hast du recht. Praktisch tatsächlich ist dieser Effekt vernachlässigbar.

Wolfi Gassler (00:47:35 - 00:47:37)

Wenn ich genug User habe natürlich immer.

Philipp Monreal (00:47:37 - 00:47:56)

Das hat auch was damit zu tun mit der zufälligen Auswahl von Nutzern. Wenn ich nur zufällig splitte, echt zufällig splitte, dann ist der Effekt davon, mehrere Tests parallel laufen zu lassen, das ist kein Problem. Das kann man an sich grundsätzlich, würde ich das so einfach beantworten. Das kann man machen, ohne dass man sich darüber groß Gedanken machen muss.

Wolfi Gassler (00:47:57 - 00:48:04)

Das heißt, auch wenn ich jetzt wenig Events habe, also Einkäufe habe in meinem Webshop, dann kann ich da trotzdem recht schnell Aussagen treffen.

Philipp Monreal (00:48:04 - 00:48:15)

Wenn ich wenig Events, wenn ich wenig Kunden in meinem Webshop habe, dann bin ich, glaube ich, gar nicht so schnell in der Implementierung, im Coden, dass ich das schaffe, so viele Features live zu kriegen.

Wolfi Gassler (00:48:16 - 00:48:18)

Ist vielleicht ein Luxusproblem, was man dann hat.

Philipp Monreal (00:48:18 - 00:48:36)

Ja, genau. Ich glaube, das ist wirklich nur dann relevant, wenn ich die seltene Situation habe, dass ich wirklich ein großes Team habe, das echt eine Menge an Features raushaut und ich habe ein komplett neues Produkt, eine extrem kleine Customer Base. Ich glaube, das ist der eine Fall, wo ich mir darüber Gedanken machen muss. Also im Allgemeinen recht, recht selten.

Wolfi Gassler (00:48:37 - 00:48:42)

Okay, das heißt, man kann aber dann eben auch parallele Experimente fahren, braucht sich da keine großen Sorgen zu machen.

Philipp Monreal (00:48:42 - 00:49:07)

Ja, kann man vielleicht an der Stelle einen Hinweis für einen, eine, für so einen statistischen Dummy-Check, für so eine Überprüfung, die man immer machen kann und immer machen sollte und die auch an der Stelle hilft. Sample-Ratio-Mismatch heißt das. Und damit der Andi sich nicht schlecht fühlt, gehe ich jetzt nicht so wahnsinnig auf die Mathematik ein. dürft ihr gerne bei Chats GPT eingeben.

Andy Grunwald (00:49:07 - 00:49:10)

Es gibt Leute, die wollen das lernen und ich möchte das auch lernen.

Philipp Monreal (00:49:10 - 00:49:16)

Früher hatte man gesagt googeln, jetzt sage ich, ich könnte das bei Chats GPT eingeben. Also.

Wolfi Gassler (00:49:16 - 00:49:17)

Hausübung für dich.

Philipp Monreal (00:49:17 - 00:49:57)

Sample Ratio Mismatch, ganz leicht erklärt. Ich sage, ich mache einen 50-50 Test. Die Hälfte meiner Nutzer sollen den Chatbot sehen, die andere Hälfte soll den nicht sehen. Eine ganz einfache Überprüfung, die auch oft vergessen wird, ist, dass ich am Ende gucke, habe ich denn überhaupt gleich viele Nutzer in der Test- und in der Kontrollgruppe? Das dauert ja in der SQL Query zehn Sekunden. Weil wenn ich da sehe, das stimmt nicht überein, selbst wenn das kleine Abweichungen hat, verwässert das die Aussagekraft enorm. Und kann auch ein guter Hinweis dafür sein, dass ich irgendwo Back habe oder so. Und hilft auch an der Stelle mit verschiedenen Varianten.

Andy Grunwald (00:49:57 - 00:50:21)

Du hattest den Podcast mit dem Satz begonnen, Lernen ist wichtiger als Wissen. Und immer wenn ich das Wort Wissen höre, dann denke ich immer automatisch an Wissensweitergabe. Was sind denn so deine Best Practices aus vergangenen AB-Tests, die Ergebnisse innerhalb einer Organisation weiterzugeben? damit auf Basis der Mitarbeiterfluktation nicht dieselben Tests kontinuierlich jedes Jahr wiederholt werden?

Philipp Monreal (00:50:21 - 00:51:09)

Ich finde, das ist eine gute Frage. Ich glaube, meine Antwort ist, niemand interessiert sich für Zahlen. Wir Menschen, wir sind nicht so gebaut, dass uns Zahlen interessieren. Wir Menschen sind so gebaut, uns interessieren Geschichten. Und deswegen ist die Antwort auf deine Frage, glaube ich, dass man am Ende immer verstehen muss, was ist die Geschichte? Das ist für mich die eigentliche Erkenntnis, der eigentliche Erkenntnisgewinn, der liegt darin. Der liegt nicht darin, dass ich sage, bloß drei. Das kann ich irgendjemandem erzählen und das vergisst der innerhalb von ein paar Stunden oder ein paar Tagen. fast immer. Aber wenn ich eine Geschichte erzähle, das gilt übrigens nicht nur für das Experimentieren, das gilt, glaube ich, für jede Art von Datenanalyse. Wenn ich eine Geschichte erzähle, dann kann ich einen echten Erkenntnisgewinn herstellen.

Wolfi Gassler (00:51:10 - 00:51:17)

Aber was machst du gegen diese Geschichten von Leuten, die dann immer sagen, wir haben das vor fünf Jahren schon probiert, das hat nicht funktioniert?

Philipp Monreal (00:51:17 - 00:55:24)

Eure Frage geht so jetzt Richtung Best Practice. Und ich denke, es ist ein total guter Punkt, dass man auch Sachen einfach versucht zu replizieren. Wie eingangs gesagt, in unserem Feld sind Experimente meistens kostenlos. Das heißt, selbst wenn ich glaube, das klappt, ich kann ja den Test einfach nochmal laufen lassen. Ein Jahr später, fünf Jahre später oder so. Why not? An der Stelle vielleicht auch ein spannender Seitenschwenk, den ich mal machen kann. Ihr habt vielleicht schon mal gehört von der Replication-Crisis. Ein sehr großes Thema, insbesondere in der Psychologie, die, glaube ich, ein schönes abschreckendes Beispiel sind. In dem Sinne, was ist das Gegenteil von Best Practice, Worst Practice? Wo, wie kann ich euch da einen Hook geben? Ihr habt wahrscheinlich schon mal gehört von Daniel Kahneman, Thinking Fast and Slow, Nobelpreisträger. Sag dir was. Und der hat ein wahnsinnig inspirierendes Buch geschrieben, finde ich, wenn man das liest. Das ist so, wow, krass und geistesblitz und aha und hey Schatz, hör mal. Und wenn man abends mit den Freunden in die Kneipe geht und ich habe gelesen und so weiter. Und in der Psychologie gab es insbesondere von 2010 bis 2020 so einen ganzen Schwung an Experimenten, die wirklich ein extraordinary Claim nach dem anderen rausgehauen haben. Also es gibt wirklich Beispiele. Ich habe es auch nochmal gegoogelt für unseren Podcast, um zu gucken. Ein Paper, das heißt A Day in the Life of Oscar the Cat. Das ist ein Paper, das wurde veröffentlicht in einem Peer-Review-Journal zu einer Zeit, wo wirklich, wo man gesagt hat, okay, wenn das Ding peer-reviewed ist, dann stimmt das Ergebnis. Und in diesem Paper wurde gesagt, da hat ein Wissenschaftler, der hat in einem Arzt, der hat in einem Hospiz gearbeitet und der hat die Hypothese aufgestellt und bewiesen, mit Anführungszeichen bewiesen, dass diese Katze Oscar, die in diesem Hospiz lebt, dass die voraussagen kann, wenn jemand stirbt. dass die Katze bei den Leuten, die bald sterben, mehr Zeit mit denen verbringt. Und das ist jetzt meine Interpretation. Er hat das einmal beobachtet, dass da ist jetzt jemand gestorben und irgendwie kurz bevor war die Katze da zu oft da. Und er hatte dann diese Hypothese im Kopf, Und hat dann dafür, war dann biased quasi, das so zu sehen. Das ist jetzt nur meine Interpretation der Dinge, wie sie geschehen. Und hat dann da eine statistische Analyse in Anführungszeichen gemacht und eben die Hypothese aufgestellt, dass diese Katze das spüren kann, dass jemand bald sterben wird. Und dieses Paper ist veröffentlicht worden in einem guten Journal. Und selbst Daniel Kahneman, der der Nobelpreisträger ist, wahrscheinlich der berühmteste, einflussreichste lebende Psychologe, hat Paper veröffentlicht, hat Paper in seinem sehr berühmten Buch zitiert, von dem er selber heute sagt, das ist Quatsch, das wird man nie replizieren können. Das sind dann so viele Experimente, die so Richtung Priming gehen. Es ist so dieses, dass man, wenn man Leute zum Beispiel, eine der Sachen unter anderem, die er behauptet hat, ist, wenn ich Leute zum Beispiel als Scrabble so ein Bordrätsel machen lasse und ich setze denen viele Begriffe vor, die was mit Alter zu tun haben, also Alter des Körpers. Nachdem sie mit dem Test fertig sind, bewegen sie sich langsamer. Das ist jetzt ein Beispiel für diesen Priming-Effekt. Und da gibt es eine ganze Reihe von diesen, die wurden für richtig gehalten, die wurden für erwiesen gehalten. Und da komme ich jetzt wieder zu Tryman's Law und so weiter, wo man denkt, hä? Kann das denn eigentlich stimmen? Und mittlerweile weiß man, es stimmt nicht. Und das wurde eben rausgefunden, unter anderem von dem eben erwähnten Andrew Gelman, der sich sehr stark dafür gemacht hat, hey, wenn hier was rauskommt, was total gegen die Intuition geht, was total merkwürdig klingt, dann reicht es vielleicht nicht, dass ich das einmal an einer Katze mit ein paar Patienten gesehen habe, sondern sollte ich, glaube ich, bevor ich das wirklich als Wahrheit raushaue, wesentlich mehr.

Wolfi Gassler (00:55:25 - 00:55:55)

Es gibt ja dieses bekannte Meme, wo diese Katze vorm Fernseher sitzt mit dem Motorrennen und sie klatscht dann so auf das Display und dann stürzt dieser Motorradfahrer. Also die klassische Korrelation ist keine Kausalität. Aber jetzt, wenn du sagst, okay, es ist ein sehr eigenartiges Ergebnis, dass man dann vielleicht nochmal nachdenkt. Aber wenn man jetzt die Daten hat bei meinem Experiment von meinem Online-Shop, wie kann ich da möglichst verhindern, dass ich da irgendwelche Korrelationen in Kausalitäten umwandle?

Philipp Monreal (00:55:55 - 00:56:20)

Ein anderer Teil Best Practice, der, glaube ich, an der Stelle hilft, ist, dass man AA-Tests macht, so nennen die sich. Also den echten Placebo, dass ich meinen Kunden einen echten Placebo verabreiche. Jetzt auch hier für die Developer unter uns, dass ich auch einfach gucke, stimmt meine Implementierung überhaupt alles? Weil das ist natürlich klar, was ich von einem AA-Test erwarte. Dann schleuse ich den einfach mal durch meine Pipeline, ja, von vorne bis hinten inklusive Analyse.

Wolfi Gassler (00:56:20 - 00:56:23)

Also AA heißt, ich verändere eben nichts.

Philipp Monreal (00:56:23 - 00:56:24)

Ich verändere eben nichts, genau.

Wolfi Gassler (00:56:24 - 00:56:27)

Und prüfe dann, ob das Ergebnis immer noch da ist.

Philipp Monreal (00:56:27 - 00:56:28)

Genau, und dann sollte ich ja, wenn.

Wolfi Gassler (00:56:28 - 00:56:31)

Alles stimmt... Keine Veränderung sehen. Nee.

Philipp Monreal (00:56:31 - 00:56:48)

Wenn ich jetzt, ich sage, ich akzeptiere in Fehlern fünf Prozent der Fälle und ich mache hundertmal einen A-Test und ich habe alles richtig implementiert, Dann in fünf von diesen AA-Tests kommt raus, es gibt einen Unterschied. Und in 95 von diesen AA-Tests kommt raus, es gibt keinen. Dann habe ich alles richtig implementiert.

Andy Grunwald (00:56:48 - 00:56:55)

Aber macht es nicht Sinn, solche Art von Tests dauerhaft nebendran laufen zu lassen? Also sozusagen immer als Kontrollgruppe?

Philipp Monreal (00:56:55 - 00:57:05)

Ja, genau. Macht Sinn. Und es gibt auch so eine Practice, das nennt sich Universal Holdout Group. Das ist genau das, dass ich eben so eine universelle Referenzgruppe habe. Ja.

Andy Grunwald (00:57:05 - 00:57:21)

Um nochmal auf die Frage zurückzukommen. Teilweise ist es gar nicht schlimm, wenn man das Wissen gar nicht so groß in der Organisation teilt, weil wir leben in der Tech-Welt. Experimentieren ist günstig. Und ab und zu kann es auch von Vorteil sein, wenn man dieselben Tests wiederholt.

Philipp Monreal (00:57:21 - 00:57:30)

Ich würde sagen, es ist schade. Es ist eine vergebene Möglichkeit, wenn ich eine Analyse mache, ohne dass ich die in eine Geschichte transformiere.

Wolfi Gassler (00:57:31 - 00:57:47)

Also das heißt nicht nur am Ende die Daten abspeichern, sondern auch das Ergebnis in irgendeiner Geschichtenform, Storyform, Ausarbeitung, textuell, Fließtext, was es auch immer dann ist, um ideal das weiterzugeben an die nächste Generation sozusagen oder ans nächste Jahr.

Philipp Monreal (00:57:47 - 00:58:00)

Genauso wie man am Anfang immer aufschreiben sollte, was war eigentlich meine Hypothese, sollte man immer am Ende immer aufschreiben, was ist meine Analyse und was ist meine Was ist meine Interpretation? Was ist meine Geschichte?

Wolfi Gassler (00:58:00 - 00:58:14)

Also wenn ich das zusammenfassen kann, gute Vorbereitung ist wichtig und die gute Nachbereitung ist auch wichtig, weil das dazwischen macht man sowieso. Und da sollte man möglichst viel Zeit investieren in dieses gute Setup und dann in die Aufbereitung oder Nachbereitung.

Philipp Monreal (00:58:14 - 00:58:34)

Genau, würde ich so unterstützen. Und das sind auch die Teile, die am ersten Mal so ein bisschen verschludert werden, dass man eben Das lässt man dann gerne mal weg. Müssen wir uns jetzt wirklich darüber so lange unterhalten, was die Metrik ist? Müssen wir jetzt wirklich das so genau aufschreiben, was Hypothese ist? Das schludert man mal weg. Komm, mach mal.

Wolfi Gassler (00:58:34 - 00:58:44)

Es ist beim Programmieren eh das Gleiche. Das ist am Anfang das Konzept erstellen, das überspringt man gern, sofort loscoden und am Ende die Dokumentation, die vergisst man auch immer gern. Ja, das ist erscheinbar überall dasselbe, ja.

Philipp Monreal (00:58:44 - 00:59:56)

Und ein anderer klassischer Fehler, der häufig geschieht, ist, dass man Experimente zu früh beendet. Dass man sagt, hey, ich monitor das jeden Tag. Ich habe meine Analysten jetzt so lange genervt, dass sie mir das jetzt automatisch geben. Und jetzt sehe ich eben, die Metrik, die mich wirklich interessiert, ist positiv. Das wäre doch dumm, wenn ich das nicht jetzt sofort akzeptiere. Ich verliere ja was mit jedem Tag, in dem das schlechtere weiterläuft. Und dann kribbelt es mir unter den Fingern. Ich möchte, dass so schnell es geht, die bessere Variante akzeptieren. Und dann ist ein sehr häufiger Fehler, dass man das eben zu früh tut, dass man Literatur als Peaking bezeichnet, dass ich mir also quasi die Ergebnisse, dass ich zu früh sozusagen durch den Türspalt luke. Und das darf man nicht. Und da muss jeder gute Analyst stark bleiben und das seinem Produktowner, CEO, whatever, liebevoll und direkt verbieten. Hier, lieber Chef, du kriegst die Ergebnisse dann, wenn das Experiment fertig ist.

Wolfi Gassler (00:59:57 - 01:00:07)

Es heißt auch da, das Commitment am Anfang von allen Beteiligten schon einholen beim Design. So lange dauert es, so lange braucht es, so viel Daten benötigen wir und davor passiert nichts. Umso früher, umso besser.

Philipp Monreal (01:00:07 - 01:00:41)

Genau. Richtig. Wenn man ein Experiment designt, dass man dann sagt, okay, bei den Sicherheiten, die ich haben will, muss das Ding vier Wochen laufen, dann akzeptiere ich das auch erst nach vier Wochen. Mit dem einen Häkchen, was ich da einschieben würde, ist, Wenn ich jetzt sehe, das ist ein absolut katastrophaler Fehler und ja, der Chatbot in 99 Prozent der Fälle stürzt da einfach ab. Da brauche ich natürlich nicht die armen Nutzer mit dem Bug zu malträtieren für einen Monat, wenn ich eh schon weiß, das Ding ist einfach kaputt.

Wolfi Gassler (01:00:41 - 01:00:44)

Aber dann musst du wieder von vorne anfangen, wenn du das fixierst.

Philipp Monreal (01:00:44 - 01:00:56)

Dann muss ich wieder von vorne anfangen. Aber jetzt mal ausgeschlossen, das ist ein absolut katastrophaler Fehler. zieht es dann auch so durch, wie du es designt hast, weil sonst ist die Aussage einfach nicht verlässlich.

Andy Grunwald (01:00:56 - 01:01:03)

Aber die richtige Laufzeit beziehungsweise die Länge, die definierst du selbst in deiner Hypothese. Also da gibt es jetzt keine mathematische Formel?

Philipp Monreal (01:01:03 - 01:01:30)

Doch, da gibt es die, das nennt man Power Analysis. Da gibt es auch viele Open-Source-Tools, Webseiten. Einfach mal Sample Size Calculator eingeben oder Chat GPT direkt fragen, kann es, glaube ich, auch so. Und dann sage ich, ich habe eine Baseline-Conversion von x, ich habe einen Effekt von y, den ich detektieren will, und ich bin bereit, diese Rate an Falsch-Positiven, diese Rate an Falsch-Negativen zu akzeptieren. Wie viele Nutzer brauche ich? Und dann gibt es eine Zahl. Bam.

Andy Grunwald (01:01:30 - 01:01:33)

Ich lerne hier gerade wirklich so viel, das ist unglaublich.

Wolfi Gassler (01:01:33 - 01:01:37)

Darum machen wir das Ganze ja. Nur für dich, Andi.

Andy Grunwald (01:01:37 - 01:01:43)

Ich habe mir gerade erstmal so einen Kalkulator aufgerufen. Ich werde jetzt gleich mal schauen, ob wir das für die Engineering Kiosk Webseite machen können.

Philipp Monreal (01:01:43 - 01:01:44)

Ich kann gerne einen guten verlinken.

Wolfi Gassler (01:01:44 - 01:01:52)

Packen wir alles in die Show Notes natürlich, damit wir endlich unsere eigenen Daten besser analysieren können. Unsere Up- und Downvotes zu den Episoden, die wir haben.

Andy Grunwald (01:01:52 - 01:02:29)

Und wenn ich schon so viel in diesem Podcast, in dieser Stunde hier lerne, frage ich mich, was muss man eigentlich in Bewegung setzen, dass die Organisation das versteht. Weil du sagtest ja, Lernen ist wichtiger als Wissen. Aber super viele Leute wollen einfach nur schnelle Ergebnisse. Du bist da, um dem Business irgendwie mehr Geld zu bringen. Und jetzt kommst du erst mal an, ich mache jetzt erst mal Try and Error. Also ich habe das Gefühl, so eine Kultur zu schaffen, dass Lernen wirklich wichtiger ist als Wissen. Und ich sag mal, man auch so eine Art Budget hat zum Lernen, dass man akzeptiert, dass manche Tests auch in die Binsen gehen. Ich glaube, das ist wirklich, wirklich, wirklich schwer zu erschaffen, oder?

Philipp Monreal (01:02:29 - 01:03:01)

Ja, ich glaube, auf der einen Seite fängt es an mit der Kultur im Sinne von, dass man sich in die Augen schaut und sagt, okay, wie wollen wir eigentlich miteinander diskutieren, miteinander sprechen, miteinander entscheiden? Und das andere ist, ich glaube, es ist einfach smart im Sinne von Investment, darüber nachzudenken. Klar, das ist ein Invest. Ich muss Leute dafür haben, die müssen ausgebildet sein. Ich brauche die Infrastruktur, ich brauche die Tools und gleichzeitig ist das ein Invest, der sich einfach langfristig immer wieder rentiert.

Andy Grunwald (01:03:01 - 01:03:35)

In der modernen Arbeitswelt hat man aber auch immer wieder Leute, die arbeiten für sich und nicht für das Unternehmen. Also wirkliche Leute, die ich sage mal harte Politik betreiben und dann vielleicht nach den ersten zwei, drei Experimenten, die du in den Sand gesetzt hast, beziehungsweise wo die gute hypothese nicht bestätigt wurde den sogenannten i told you so dance tanzen und dich dann vom management schlecht machen oder ähnliches sowas ist ja dann reinstes gift aber im endeffekt versuche ja die datenbasis zu liefern die alle leute immer nur ich sag mal mit bauchgefühl getroffen.

Philipp Monreal (01:03:35 - 01:04:32)

Haben oder ja das ist glaube ich so das berühmte hippo highest paid highest-paid-person's-opinion. Ich glaube, der Schlüssel ist, dass man die Awareness hat. Das war ein Moment, den ich in meiner Karriere mal sehr inspirierend fand, als der CEO in einem Unternehmen, in dem ich gearbeitet habe, hat genau das zu mir gesagt. Hey Philipp, mit deinem Team, bitte kümmere dich darum, dass ich nicht zum Hippo werde. Das ist ja mega. Klar, du musst mit dieser Awareness anfangen. Aber auf der anderen Seite, wenn du das einmal hast, dann hast du eine bessere Kollaboration, eine bessere Kooperation. Und ich glaube, auch Lernen und sich weiterentwickeln ist ein ganz fundamentaler menschlicher Motivator, ein Treiber von ganz, ganz vielen. Neben Appreciation, dass einem jemand Danke sagt, und neben Impact, glaube ich, dass man besser wird in etwas. Das macht Bock, uns allen.

Wolfi Gassler (01:04:33 - 01:04:45)

Also das ist, glaube ich, ein guter Tipp für alle Chefinnen und Chefs da draußen. Werdet keine Hippos und versucht, eure Leute so viel Kompetenz zu geben, damit ihr keine Hippos werdet.

Andy Grunwald (01:04:45 - 01:05:12)

Ich fand das aber auch ein super schönes Abschlusswort, was du gerade gesagt hast. Hört nicht auf zu lernen. Ich glaube, jeder Software-Ingenieur und Software-Ingenieurin kommt da leider nicht drum herum, so wie die Techwelt sich entwickelt. Philipp, vielen lieben Dank für deinen Auftritt hier, für vielleicht mal auch ein bisschen die Angst neben von Statistik und Mathe. Also vielleicht werde ich mich mal mit der Power-Analyse jetzt ein bisschen beschäftigen. Schauen wir mal, warum mich der Abend noch so hintreibt.

Wolfi Gassler (01:05:12 - 01:05:45)

Und es ist ja wie bei jedem Bingo-Blatt eigentlich. Hinter den Begriffen steht ja auch nur irgendeine Theorie, die man relativ schnell eigentlich nachlesen kann. Da muss ja kein Spezialist drin werden. Aber mal was nachgoogeln funktioniert ja schon ganz gut. Vielen lieben Dank auch von meiner Seite. War wirklich cool, ein bisschen Einblick zu bekommen. Kleiner Funfact, Rande, du hast ja den Oskar, die Katze, erwähnt. Was du nicht weißt, ist, dass die Katze, die um dich herumläuft, von unserem Host Danke Matthias übrigens, der unsere Audio-Technik macht und neben uns sitzt, seine Katze heißt Oskar, der Kater.

Philipp Monreal (01:05:46 - 01:05:49)

Nein!

Wolfi Gassler (01:05:49 - 01:05:52)

Also der begleitet uns auch während der Podcast-Aufnahme.

Andy Grunwald (01:05:52 - 01:05:54)

Philipp, hast du noch ein Abschlusswort für alle anderen?

Philipp Monreal (01:05:55 - 01:05:59)

Abschlusswort an euch, danke. Danke euch für die Einladung, hat mir Spaß gemacht.

Wolfi Gassler (01:05:59 - 01:06:05)

Gerne wieder. Wir machen dann eine zweite Episode, wo wir wirklich tief in die Mathematik gehen, damit der Andi dann, das ist dem wirklich schlecht.

Andy Grunwald (01:06:05 - 01:06:23)

Anderer Funfact, ich habe hier ein Buch stehen, das heißt Statistik von Kopf bis Fuß. Und die fangen das Buch an mit, wie man mit Datenvisualisierung seine Meinung durchgedrückt bekommt, indem man die halt anders darstellt. Deswegen weiß ich nicht, ob ich dafür geeignet bin.

Wolfi Gassler (01:06:23 - 01:06:32)

Ich probiere es ja seit Ewigkeiten schon, Andi immer klarzumachen, dass meine Titel von Episoden immer besser performen als Andis Titel. Aber er glaubt mir da nie so.

Philipp Monreal (01:06:32 - 01:06:35)

Ich helfe euch gern diese Hypothese zu verifizieren.

Andy Grunwald (01:06:36 - 01:06:48)

Ja, das ist aber jetzt mal interessant. Wie würde man Podcast Episode Titel AB testen, denn eigentlich müssten wir zwei Podcasts releasen, oder? Mit demselben Inhalt, mit derselben Hörerbasis?

Wolfi Gassler (01:06:48 - 01:06:57)

Das Problem bei Podcasts ist, dass du eigentlich nicht das unter Kontrolle hast und keine zwei Gruppen machen kannst, weil du die Herausgelieferung nicht unter Kontrolle hast vom Podcast.

Philipp Monreal (01:06:57 - 01:07:00)

Richtig, ihr müsstet eigentlich den Kollegen bei Spotify schreiben.

Wolfi Gassler (01:07:00 - 01:07:01)

Genau, die könnten das machen.

Philipp Monreal (01:07:01 - 01:07:03)

Die könnten das sehr gut herausfinden.

Wolfi Gassler (01:07:03 - 01:07:12)

Also, alle, die von Spotify mithören, lasst uns erstmal wissen. Aber die arbeiten ja immer mehr an Podcasts, vielleicht kommen sie dann endlich mit sowas auch an.

Andy Grunwald (01:07:12 - 01:07:16)

Aber meinst du, die machen das für die Großen hier? Wie heißen die? Joe Reagan oder wie soll er heißen?

Wolfi Gassler (01:07:16 - 01:07:18)

Ihre eigenen Produktionen können sie das natürlich gut machen.

Philipp Monreal (01:07:19 - 01:07:36)

Ich glaub schon, sicher. Die haben ja auch jedes Interesse dran. Die Main KPI von Spotify ist, wie viele Stunden am Tag hört der durchschnittliche Nutzer. Die haben ja jedes Interesse dran, das zu erhöhen. Klar helfen die ja den Podcast-Machern, das zu optimieren, oder?

Wolfi Gassler (01:07:36 - 01:07:47)

Sehst du, Andi, und wir streiten uns immer nur, wer mehr redet in den Podcasts, wer mehr Redezeit hat. Eigentlich sollten wir den anderen KPI einführen, wer hört uns zu, anstatt wie viel wir reden.

Andy Grunwald (01:07:47 - 01:07:55)

Nee, das Schöne nach dieser Episode ist, ich kann einfach jede Diskussion, dein Titel ist zu langweilig oder meiner ist besser, kann ich jetzt einfach stoppen. Und sag Wolfgang.

Wolfi Gassler (01:07:55 - 01:07:57)

Philipp hat gesagt, es funktioniert so nicht.

Andy Grunwald (01:07:57 - 01:08:01)

Genau. Lass mich in Ruhe, zeig mir die Daten, damit wir mal eine bessere Diskussionsgrundlage schaffen.

Wolfi Gassler (01:08:01 - 01:08:02)

Ja, sehr schön.

Andy Grunwald (01:08:02 - 01:08:03)

Ich merke schon.

Wolfi Gassler (01:08:03 - 01:08:05)

Trotzdem hättest du die falschen Argumente geliefert.

Andy Grunwald (01:08:05 - 01:08:09)

Vielen lieben Dank, Philipp. Vielen lieben Dank, Wolfgang. Vielen lieben Dank, Matthias, für dieses hybride Setup.

Wolfi Gassler (01:08:09 - 01:08:17)

Das scheinbar gut funktioniert hat, zumindest wenn ihr uns jetzt aktuell hört, dann hat das ganze Setup, das experimentelle Setup von uns funktioniert.

Andy Grunwald (01:08:17 - 01:08:30)

Alle Links, die der Philipp erwähnt hat, verlinken wir natürlich in den Show Notes. Auch, wie ihr Philipp mal kontaktieren könnt, wenn ihr mal eine Frage zu Power-Analysis habt oder ähnliches. Und deswegen sage ich einfach mal... Oh.

Wolfi Gassler (01:08:30 - 01:08:31)

Da ist unser Oskar.

Andy Grunwald (01:08:32 - 01:08:39)

Und wer ein Bild von Oskar haben möchte, das verlinken wir auch in den Show Notes. Dankeschön, bis nächste Woche und tschüss. Ciao.