Was ist Churn?

Churn, Business Englisch für Kundenabwanderung, ist in vielen Unternehmen ein bekanntes Phänomen. In der Tat in praktisch jedem einzelnen, das Sie sich vorstellen können, da jedes Unternehmen Kunden hat und ihnen „Sachen“ verkauft. Was verkauft wird, ist irrelevant für die Tatsache, dass der Kunde immer anwesend ist. Selbst wenn es sich um ein B2B-Geschäft handelt, gibt es Kunden (nur sind es diesmal andere Unternehmen). Daher ist der Kunde immer der Eckpfeiler jedes Geschäfts, und sie zu verlieren, ist schrecklich, egal was wir verkaufen.

Zum Glück für uns kommt es nicht sehr oft vor, dass wir Kunden verlieren. Je nach Geschäft kann es in einem Verhältnis von 1 bis 4 (eine hohe Kundenverlustrate) oder vielleicht 1 bis 20 bei Geschäften mit loyalen Kunden geschehen. Es hängt immer von der Art des Geschäfts ab. In jedem Fall wird es unser Ziel sein, diese Quote zu reduzieren. Es ist jedoch nicht einfach zu definieren, was ein akzeptables Verhältnis für ein Unternehmen ist, und es ist auch nicht einfach, dieses Verhältnis in allen Geschäftsfällen wiederzuverwenden. Welches Verhältnis wäre für ein Telekommunikationsunternehmen akzeptabel? Was für ein Fitnessstudio? Was für einen Supermarkt? Ist es im letzteren Fall überhaupt möglich, die Abwanderung zu messen?

Je nach Kontext ist die allererste Frage, die wir im Zusammenhang mit der Abwanderung beantworten müssen: Was ist die Abwanderung in unserem Geschäftsszenario? Dies kann als eine Erweiterung der klassischen Problemdefinitionsphase in jedem Machine Learning-Projekt angesehen werden, allerdings mit einem gewissen Twist. Und wie in jedem Projekt des maschinellen Lernens ist die Monetarisierung und Bewertung unseres Modells der Schlüssel zum Verständnis, wie gut es über statistische (und, seien wir ehrlich, für das eigentliche Ziel des Modells, nämlich die Anwendung auf ein Unternehmen, nicht sinnvoll ist) Maßnahmen hinausgeht. Die Umsetzung von Modellen in Geld ist nie einfach, und die Abwanderung ist keine Ausnahme, aber die Abwanderung ist ein branchenübergreifender Fall, und von ihnen können wir uns eine Vorstellung davon machen, wie wichtig sie ist. (Referenz)

  • Die Erhöhung der Kundenbindungsrate um 5% erhöht den Gewinn um 25% bis 95%
  • Es kostet fünfmal so viel, einen neuen Kunden zu gewinnen, als einen bestehenden Kunden zu behalten

Natürlich können Sie diese Zahlen gerne anpassen und/oder auf Ihren eigenen Geschäftsfall anwenden, aber sie geben uns eine überwältigende Vorstellung von der geschäftskritischen Rolle eines solchen Modells. Es hilft uns, die Rentabilität, die sich aus den Veränderungen in unserem Modell ergibt, schnell zu erkennen (eine Erhöhung von 1% in einem Leistungsmaß im Modell wirkt sich in X Geld für unser Geschäft aus).

Wenn wir einmal festgestellt haben, was für unseren speziellen Geschäftsfall eine Abwanderung ist, werden wir immer nicht nur wissen wollen, was, sondern zumindest diese Schlüsselpunkte:

  • Wer?
    • Wissend, welche Kunden uns eher verlassen, können wir Kundenbindungskampagnen entwerfen und ihren Abbruch vermeiden.
  • Warum?
    • Diese Bindungskampagnen müssen sich auf die Schlüsselbereiche unseres Geschäfts konzentrieren. Das Wissen um die Gründe, warum die Kunden, die wahrscheinlich das Unternehmen verlassen werden, teilen, wird uns helfen, Kundenprofile gezielt zu erstellen und Aktionen zu konzipieren.

Im Gleichgewicht gibt es Tugend

Wie der Philosoph sagte, in der Balance liegt die Tugend. Dies gilt im Leben und ist beim maschinellen Lernen nicht anders, besonders in einem Fall wie der der Abwanderung. Wir haben bereits erwähnt, dass die Abwanderungsrate je nach Geschäftsfall höher oder niedriger sein kann, aber sie wird immer unausgewogen sein zugunsten der „nicht aufgewühlten“ Fälle. Dies ist eine bekannte Situation beim maschinellen Lernen, und es erschwert unseren Modellen (in diesem Fall einem binären Klassifikator, da wir 2 Klassen haben – „aufgewühlt“ und „nicht aufgewühlt“), aus den Daten zu lernen, da weniger Fälle der „aufgewühlten“ Klasse gezeigt werden. Es gibt verschiedene Techniken, um unsere Daten auszugleichen und den Algorithmen die Lernaufgabe zu erleichtern.

Wir könnten Folgendes anwenden

  • Überabtastung: Die Erhöhung der Minderheitenklasse (unsere ‚aufgewühlten‘ Fälle), wodurch synthetische Fälle geschaffen werden, die den realen Fällen ähnlich genug sind.
  • Unterabtastung: Verminderung der Mehrheitsklasse. Ein Ausgleich des Datensatzes kann erreicht werden, indem Fälle aus der Mehrheitsklasse eliminiert werden, die nicht signifikant sind, weil bereits andere extrem oder genau identische Fälle existieren.
  • Hybride Methoden: Kombination von Oversampling- und Undersampling-Methoden.

Es gibt andere Techniken, die mit dem Algorithmus, auf dem wir unser Modell aufbauen, verbunden sind, aber wie in jedem anderen Bereich des maschinellen Lernens gibt es kein kostenloses Mittagessen: Testen Sie Kombinationen, untersuchen Sie, welche am besten zu Ihren Daten und Ihrem Algorithmus passt, und wenden Sie sie an.

Trust Occam’s Rasiermesser

Modelle für maschinelles Lernen können sehr komplex werden, mit Dutzenden oder Hunderten von Funktionen, die es zu berechnen und zu verstehen gilt. Dies geschieht auch bei der Abwanderungsanalyse, insbesondere wenn berechnete Geschäftsmetriken in das Rezept einfließen. Obwohl dies für unsere Algorithmen vorteilhaft sein kann (je reicher die Information, desto besser das Modell), können wir in den „Dimensionalitätsfluch“ fallen. Zu viele Merkmale zu haben, wenn wir ein Modell mit weniger Merkmalen erstellen können, das gut genug ist (denken Sie daran, dass wir nie ein perfektes Modell haben werden), ist eine Verschwendung von Zeit und Rechenleistung.

Dies ist besonders kritisch, wenn wir über eine der Schlüsselfragen in unserem Ansatz zur Abwanderung nachdenken: „Warum lassen mich meine Kunden im Stich?“. Wenn sich die Antwort auf Hunderte von Faktoren stützt, wird es äußerst schwierig sein, sie unseren Kollegen oder Kunden verständlich zu machen, wenn wir Kundenbindungskampagnen konzipieren oder, was manchmal noch wichtiger ist, wenn wir unsere Ergebnisse verkaufen!

Darüber hinaus sind einfache Modelle in der Regel robuster und weniger anfällig für Überanpassung (alias „overspecialized“). Die Daten werden uns immer überraschen, wenn wir unser Modell in Produktion bringen. Kunden werden sich immer anders verhalten und neue Kunden werden mit neuen Gehäusen kommen. Einfachere Modelle (solange sie gut genug funktionieren) sind in der Regel besser als überkomplizierte Modelle, da sie mit neuen Daten in der Regel besser verallgemeinert werden können (sie funktionieren besser mit ungesehenen Daten).

Das Warum von allem zusammen

Ein gutes Abwanderungsmodell zu haben ist großartig, aber nicht genug. Die Fähigkeit, Abwanderung zu erkennen und vorherzusagen, welche Kunden unser Geschäft eher aufgeben, ist nicht hilfreich, wenn wir nicht in der Lage sind, zu interpretieren, warum und welche Aspekte ihres Verhaltens für die Kunden, die abwandern, am wichtigsten sind. Dies wird durch die Modellinterpretation erreicht, da das Modell eine Zusammenfassung des gesamten Datensatzes ist. Gleichzeitig ist (oder sollte) der Datensatz eine Zusammenfassung des Verhaltens unserer Kunden sein. Bei der Interpretation des Modells interpretieren wir also die Aktivität unserer Kunden, aber nicht in einem allgemeinen Rahmen, sondern mit Schwerpunkt auf ihren abwanderungsbedingten Aktionen oder ihrem Profil.

Die Modellinterpretation ist heutzutage ein heißes Thema beim maschinellen Lernen. Es ist aus vielen Gründen ein grundlegender Bestandteil von ML. Einige davon sind es:

  • Erlaubt uns ein besseres Verständnis unserer Modelle jenseits von Metriken
  • Es ist nützlich, Modelle zu debuggen und zu verbessern
  • Um Verzerrungen in unseren Datensätzen und Modellen zu erkennen und zu vermeiden
  • Um eine präskriptive Analytik zu erreichen (wie die oben genannten Kampagnen zur Mitgliederbindung)

Aus unseren Modellen können die wichtigsten Merkmale extrahiert werden, um zu prüfen, welche Merkmale am meisten zum Modell beigetragen haben, um zu entscheiden, ob ein Kunde umzieht oder nicht. Verschiedene Algorithmen speichern diese Informationen auf unterschiedliche Weise. Die baumbasierten Algorithmen speichern diese beispielsweise als Metadaten, je nachdem, wie sehr jedes Merkmal ihnen in der Schulungsphase geholfen hat, aus dem Datensatz über das Verhalten unserer Kunden zu lernen. Andere Algorithmen, wie die logistische Regression, speichern diese Bedeutung in Form von Koeffizienten oder Gewichten für jedes Merkmal. In jedem Algorithmus, der seine Merkmalswichtigkeit speichert, können wir Informationen extrahieren und darstellen.

Andere Algorithmen, wie Support-Vektor-Maschinen oder Neuronale Netzwerke, wurden in der Vergangenheit als „Black Boxes“ betrachtet. Das ist dank verschiedener Techniken wie Permutation Feature Importance oder den Shapley Additive Explanations nicht mehr der Fall. Sie zielen darauf ab, modell-agnostisch zu sein, da sie sich nicht auf die inneren Eigenschaften des Modells stützen, um über die Wichtigkeit zu informieren, sondern sie fordern das Modell heraus, indem sie mit modifizierten Daten gefüttert und dann ihre Leistung analysiert werden. Wenn die Modifikationen eine tiefe Auswirkung auf die Leistung des Modells hatten, weisen sie dem modifizierten Merkmal eine höhere Punktzahl zu. Diese Techniken erfordern ständige Modellherausforderungen und Interaktionen mit dem Modell und können zeitaufwendig sein, erlauben es uns aber, praktisch jedes Modell zu erklären, einschließlich komplexer Ensemble-Modelle, die häufig in Produktionssystemen verwendet werden und zu Überanpassungen (auch bekannt als „overfitting“) neigen. Die Daten werden uns immer überraschen, wenn wir unser Modell in Produktion bringen. Kunden werden sich immer anders verhalten und neue Kunden werden mit neuen Gehäusen kommen. Einfachere Modelle (solange sie gut genug funktionieren) sind in der Regel besser als überkomplizierte Modelle, da sie mit neuen Daten in der Regel besser verallgemeinert werden können (sie funktionieren besser mit ungesehenen Daten).

Referenzen

https://imbalanced-learn.readthedocs.io/en/stable/index.html

https://scikit-learn.org/stable/modules/feature_selection.html

Originaltext