Wie hat Target Co. herausgefunden, dass ein Mädchen vor ihrem Vater schwanger war?
Jon Pospischil, Co-Gründer, Custora (Predictive Analytics Startup)
Aaron Goodman, unser leitender Datenwissenschaftler, schrieb einen Blogpost, in dem er darüber spekulierte, wie er es gemacht hat. Hier ist der Hauptteil des Posts:
Target begann mit der Überzeugung, dass Frauen Marken-Loyalität bilden, wenn sie im dritten Trimester einkaufen. Daher möchten sie vorhersagen können, wann ihre weiblichen Kunden in dieses Trimester eintreten werden. Durch das Senden der entsprechenden Coupons am Ende des zweiten Trimesters möchten sie ihre Kunden ermutigen, Target zu besuchen und mehr von diesen langfristigen Beziehungen zu schmieden.
Wir können daran denken, das Problem in drei Schritten anzugehen: Zuerst wird vorhergesagt, welche Kunden schwanger sind, dann werden die Fälligkeitstermine vorhergesagt und schließlich die besten Coupons ermittelt, die gesendet werden, um den Kunden dazu zu bringen, in den Laden zurückzukehren. In diesem Beitrag werden wir uns das erste Problem anschauen und vorhersagen, welche Kunden schwanger sind.
Das Schwangerschaftsprognoseproblem kann wie folgt weiter unterteilt werden:
Stellen Sie einen Trainingsdatensatz zusammen, der aus schwangeren und nicht schwangeren Kunden besteht
Erstellen Sie "Warenkörbe" von Artikeln, die von diesen Kunden gekauft wurden
Wählen Sie ein Modell, identifizieren Sie relevante Merkmale und erstellen Sie Schwangerschaftsvorhersagen
Bestimmen, welche Kunden Mailer erhalten
Erstellen eines Trainingsdatensatzes
Um eine Schwangerschaft vorherzusagen, müssen wir zuerst einen Trainingsdatensatz für die Modelle entwickeln. Wir filtern den Kundendatensatz nach Frauen, die regelmäßig bei target einkaufen. Ziel muss eine Möglichkeit haben, Geschlecht und Gast-ID direkt zu verbinden, oder sie können Geschlecht aus den Produkten, die Gäste kaufen, bestimmen. Sie müssen ziemlich regelmäßig Käufer sein, um genügend Daten für genaue Vorhersagen zu haben.
Target hat auch einige Daten darüber, welche dieser Frauen schwanger sind. Der Artikel sagt, dass sie Informationen über das Fälligkeitsdatum von Gästen haben, die die Informationen mit der Geschenkregistrierung von Target zur Verfügung stellen. Wir können diese Daten als Trainingssatz für das Modell verwenden.
Definieren von "schwangeren" und "nicht-schwangeren" Warenkörben
Wir können eine Vielzahl von "Warenkörben" von Produkten aufstellen, die von schwangeren und nicht schwangeren Frauen gekauft werden. Wir erstellen die Körbe von Schwangerschaftsprodukten, indem wir betrachten, was Gäste in ihren ersten 26 Schwangerschaftswochen kaufen. Wir erstellen einen Basketkorb von Produkten, die nicht schwangere Frauen kaufen, indem sie Produkte nehmen, die Frauen in einem zufällig ausgewählten Zeitraum von 26 Wochen kaufen.
Wir sind jetzt mit den Daten bewaffnet, die wir benötigen, um Schwangerschaftsfälligkeitstermine vorherzusagen. Der Artikel sagt, dass:
Der Statistiker von Target konnte etwa 25 Produkte identifizieren, die es ihm ermöglichten, jedem Käufer eine "Schwangerschaftsvorhersage" zuzuweisen. Noch wichtiger: Er konnte sein Fälligkeitsdatum auch innerhalb eines kleinen Fensters schätzen, so Target könnte Gutscheine senden, die zeitlich auf ganz bestimmte Phasen ihrer Schwangerschaft abgestimmt sind.
Ein Modell und einen Ansatz auswählen, um zu lernen und vorherzusagen
Das erste, was zu tun ist, ist die Auswahl der Features. Merkmalauswahl ist der Prozess des Auswählens, welche der möglichen Vorhersagevariablen relevant sind. In diesem Fall handelt es sich um den Kauf oder das Fehlen von bestimmten Produkten. Target hat Zehntausende von Produkten, und um zu prognostizieren, welche Kunden schwanger sind, müssen wir die Teilmenge von Produkten bestimmen, die von Schwangeren mehr gekauft werden. Um dies herauszufinden, könnten wir jedes Produkt in seinem Portfolio mit einer booleschen Indikatorvariablen codieren, dann ist jeder Warenkorb eine Sammlung dieser Variablen. So können wir für n Warenkörbe und m Artikel im Laden das Problem als eine nx1-Matrix von Antwortvariablen kodieren, wobei eine 1 anzeigt, dass der Warenkorb von einer schwangeren Frau stammt und eine 0 bedeutet, dass der Warenkorb zufällig ausgewählt wurde weiblicher Kunde. Wir würden eine nxm-Matrix von Prädiktorvariablen erstellen, wobei Zeilen die einzelnen Warenkörbe sind und die m Spalten Elemente im Zielbestand sind. Zellen in der Matrix werden mit 1 gefüllt, wenn sich der Artikel im Warenkorb befindet, und 0, wenn der Artikel nicht vorhanden ist.
Dann könnten wir einen überwachten Lernalgorithmus verwenden, um vorherzusagen, welche Körbe schwangeren Individuen gehören, und dann können wir eine Merkmalsauswahl durchführen, um herauszufinden, welche Produkte die Schwangerschaft am meisten vorhersagen. Die beliebtesten überwachten Lernalgorithmen, logistische Regression, neuronale Netze, Support Vector Machines und Random Forests. Ich würde mit einer regularisierten logistischen Regression beginnen, die die Vorhersage- und Merkmalauswahlschritte kombiniert (Tibshirani et al.). Die Regularisierung ist eine Möglichkeit, die Überanpassung zu vermeiden, und verwendet eine abgeschätzte Maximum-Likelihood-Schätzung. Die Regularisierung wird auch verwendet, um zu bestimmen, welche Produkte nützlich sind, wir können einfach einen Regularisierungsparameter auswählen und dann alle Produkte auswählen, die Prädiktionskoeffizienten ungleich Null haben.
Wählen, an wen Sie Mailer senden möchten
An diesem Punkt haben wir einen Schwangerschaftsvorhersage-Score für jeden Kunden und müssen herausfinden, was der geeignete Cut-off ist. Wir tun dies, indem wir eine falsche Erkennungsrate (FDR) auswählen. Da wir niemals mit hundertprozentiger Genauigkeit voraussagen können, wer schwanger ist und wer nicht, müssen wir einen Weg finden, den Fehler, den wir machen werden, zu minimieren. Wir können einen FDR auf 0,05 setzen, das heißt, wenn wir die Versandtaschen versenden, erwarten wir, dass 95% der Frauen, die sie erhalten, schwanger sind, und 5% falsch positive. (Storey et al.).
Der vollständige Beitrag ist hier verfügbar: http://blog.custora.com/2012/02/...
Daniel McLaury, [math] P [A Keil B] neq P [A] P [B] [/ math]
Beantwortet am 9. März 2017 · Autor hat 2.6k Antworten und 8.8m Antwortansichten
Hinweis: Beantworten, weil ich gefragt wurde.
Ich stimme mit Charles H Martin
. Target verwendet wahrscheinlich einige hochentwickelte Optimierungen und mehrere Systeme, aber dies ist im Kern ein von Vanille überwachtes Lernproblem - Geburten sind eine Frage der öffentlichen Meinung, also können Sie einfach die Liste der Leute, die Babys hatten, extrahieren den Namen auf ihren Kreditkarten / Geschäftskonto / etc., und dann analysieren, was sie in den Monaten vor der Lieferung gekauft haben.Aus einer mathematischen Perspektive, würde ich vermuten, dass Sie den größten Teil des Weges dort mit so grundlegenden wie logistischen bekommen konnten Regression. Natürlich lohnt es sich in einem Unternehmen, um diese Hundertstel-Prozent-Verbesserung zu kämpfen, weshalb sie ein engagiertes Team haben, das an diesen Dingen arbeitet und sicherlich etwas schwerere Maschinen einsetzt, aber das Grundprinzip bleibt dasselbe.
Meta braun, Autor, Data Mining für Dummies
Beantwortet 14. August 2017 · Autor hat 151 Antworten und 211.2k Antwortansichten
Diese Geschichte ist aus einem Stück von Charles Duhigg hervorgegangen, das letzten Februar in der New York Times erschien, zeitgleich mit der Veröffentlichung seines neuen Buches über die Entscheidungsfindung.
Der Artikel erwähnt einen Anruf von einem wütenden Vater, dessen Tochter irgendeine Art von babybezogenem Mailing erhalten hatte, und es heißt auch, als sich ein Manager später entschuldigte, entschuldigte sich der Vater selbst und machte eine Bemerkung, die darauf hinwies, dass er inzwischen erfahren hatte, dass Tochter war schwanger. Es ist jedoch nicht klar, um was für ein Mailing es sich handelte, oder ob dies tatsächlich ein Fall war, der mit der Modellierung von Target zusammenhing. In der Tat, dieser Artikel und ein Vortrag von Target "s eigenen Analyst Andrew Pole deuten darauf hin, dass Target zielt auf subtilere Mailings - nicht eine große We-Know-You" re-Schwangere Nachricht, sondern ein subtiler Ansatz des Rutschens Coupons für Babyartikel in eine Mailer mit einer Mischung von Angeboten.
Wenn Sie mehr darüber erfahren möchten, wie Target Kunden identifiziert, die wahrscheinlich schwanger sind, können Sie Details über die Target-Modellierung von ihrem eigenen Analysten erfahren. Sehen Sie dieses Video von seinem Vortrag 2010 Keynote bei Predictive Analytics World: http: //www.rmportal.performedia ...
Hier sind eigene Beiträge, die auf einige der Herausforderungen im Modellierungsprozess hinweisen, die er beschreibt:
Umgang mit Geheimnissen http://metabrown.com/blog/2012/0...
Mehr über Geheimnisse http://metabrown.com/blog/2012/0...
Tanya Zyabkina, nahm ein paar Stat-Klassen
Beantwortet 17. März 2017 · Autor hat 591 Antworten und 610.4k Antwortansichten
ich bin mit Daniel McLaury
auf diesem einen. Um Ihr Modell zu entwickeln, müssen Sie eine endgültige Reihe von Ergebnissen haben, ähnlich wie die Geburtsaufzeichnungen, die Sie dann verwenden können, um Ihre Vorgeburtsaufzeichnungen zu analysieren. Man kann versuchen, den Kauf von Babyartikeln basierend auf den Kaufdaten vorherzusagen (ohne die öffentlichen Geburtsdaten zu verwenden), aber es ist viel schwieriger, weil der Datensatz durch Baby-Duschgeschenke, Großeltern usw. verunreinigt ist.
Hier ist die beste Schätzung über die Variablen, die sie im Modell als signifikant gefunden haben könnten, vorausgesetzt, Sie modellieren für die frühe Schwangerschaft (bevor sie Babyartikel kauft):
1. Frau im gebärfähigen Alter.
2. Gap beim Kauf von Frauenschutzartikeln.
3. Kauf eines Schwangerschaftstests.
4. Kauf von Folsäure oder vorgeburtlichen Vitaminen.
5. Kauf von Umstandsmode.
Ich habe auch das Gefühl, dass es "ein bisschen wenn eine urbane Legende ist. Obwohl solche spezifischen Analysen möglich sind, sind sie nicht sehr wahrscheinlich (und ich habe von Target keine Karten erhalten, nachdem ich ungefähr 10 Jahre lang Karteninhaber war). Eine Ausnahme wäre" Spezialprojekt "Analyse für Mailing von einem der Anbieter, wie Windel oder Formel-Maker.
Amit Goel, Mitgründer LetsTalkPayments.com und CEO / Gründer GrowthPraxis
Beantwortet 9. März 2017 · Autor hat 86 Antworten und 118k Antwortansichten
Die Antwort liegt darin, die richtigen Daten zu sammeln und zu analysieren. Beispiel: Wenn Sie die demografischen Daten Ihrer Einkäufer im Ladengeschäft (mit Kundenkarten oder nur Formulare) erneut erfassen, können Sie die Warenkorbdaten des Kunden über einen bestimmten Zeitraum hinweg problemlos abrufen. Zum Beispiel, wenn dieses Mädchen in den Laden kam und Geburtsvorrat kauft, Mamikleider und es gegen ein Mädchen analysierend, das (sagen wir) 20 ist. Addieren Sie das, wenn sie viel Bequemlichkeitsnahrung wie Schokoladen und Marshmallows das Analysegerät kauft bekommt erste Hinweise. Es kann ein paar Mal nach verschiedenen Regeln überprüfen und nach einiger Zeit bestätigen. Eine gute Frage ist auch, was tun Sie, wenn Sie diese Informationen erhalten haben? Sie können versuchen, bestimmte Produkte an sie zu stellen. Für zB Babykleidung, Windeln durch Versand von Mailern mit Rabatten.
Charles H Martin, Kalkulation Beratung; wir sagen Dinge voraus
Beantwortet 3. März 2017 · Autor hat 1.2k Antworten und 2.9m Antwort Ansichten
Es ist eine großartige Anwendung des maschinellen Lernens
Rick Bischoff
Beantwortet 3. März 2012
Ich glaube nicht, dass irgendjemand außer Target mit Sicherheit sagen könnte. Es war wahrscheinlich ein Empfehlungssystem mit kollaborativer Filterung.
Ich wäre sehr überrascht, wenn Target explizit herausfinden würde, wer schwanger ist. Wahrscheinlich haben sie diesen Wissensnippel aus einem viel größeren System von Empfehlungen extrahiert.
Statistics Software, Target (Unternehmen), Predictive Analytics, Statistik (erhobene Daten), Statistik (akademische Disziplin)