Blog

Was Ihnen Ihre Daten nicht verraten: Die Grenzen von Big Data

DynamicWeb

Wir alle haben schon von Big Data gehört - die riesigen Analysekapazitäten, die von den großen Unternehmen des Silicon Valley wie Facebook, Google, Twitter und Amazon bekannt gemacht wurden.

Obwohl "Big Data" in der Technologiebranche in aller Munde ist, was bedeutet das für die Marketingstrategie Ihres Unternehmens? Und wo liegen die Grenzen eines Big-Data-Ansatzes bei der Analyse?

Das Prinzip hinter Big Data ist einfach: Mit unserer zunehmenden Fähigkeit, große Datensätze aus der Internetnutzung zu sammeln und zu speichern, ist es nicht mehr notwendig, repräsentative Stichproben zur Analyse zu sammeln. Wir können im Prinzip alle vorhandenen Daten analysieren, statt nur zu raten. McKinsey and Company hebt die Bedeutung dieser Innovation für die Wirtschaft hervor und stellt fest, dass "etablierte Wettbewerber und neue Marktteilnehmer gleichermaßen datengesteuerte Strategien nutzen werden, um innovativ zu sein, zu konkurrieren und aus umfangreichen und aktuellsten Informationen Nutzen zu ziehen".

Andererseits weist ein Artikel von Tim Harford in der Financial Times auf drei große Fallstricke bei der Big-Data-Analyse hin: falsche positive Ergebnisse, Stichprobenverzerrungen und Stichprobenfehler.

In Harfords Artikel erzählt er die Geschichte der analytikgesteuerten Marketingbemühungen von Target, die Frauen, die sich schwangerschaftsbezogene Produkte wie Magnesiumpräparate ansahen oder kauften, Angebote für Babyprodukte machten. Während die Marketingmaßnahmen bei einigen Kunden unheimlich erfolgreich waren, erkannte Target auch, dass es ein Potenzial für falsche Positivmeldungen gab: Frauen, die nicht schwanger waren, deren Kaufverhalten aber die Marketingreaktion ausgelöst hatte. Aus diesem Grund mischte Target Gutscheine für Nicht-Babyprodukte wie Weingläser bei, um nichtschwangere Frauen nicht zu verunsichern und ihnen nur nutzlose Gutscheine für Babyprodukte zu schicken.

Falsch-positive Ergebnisse weisen darauf hin, dass Big-Data-Analysen oft falsch sind, wenn sie auf Einzelpersonen angewandt werden. Daher sollten sich datengesteuerte Marketingtexte nicht darauf verlassen, dass Korrelationen zu 100% genaue Indikatoren sind.

Ein weiteres Problem bei der Big-Data-Analyse ist Stichprobenverzerrung: die unmittelbare Annahme, dass Ihre Daten repräsentativ für die gesamte von Ihnen analysierte Population sind. So liefern beispielsweise die Trending Tags auf Twitter eine Momentaufnahme von Themen, die weltweit von Interesse sind, aber das Durchschnittsalter der Twitter-Nutzer verzerrt den Datensatz in Richtung jüngerer Teilgruppen der Bevölkerung. Überlegen Sie bei der Analyse der Ihnen zur Verfügung stehenden Daten, wer in Ihrem Datensatz möglicherweise nicht berücksichtigt wird und wie Sie deren Beiträge einholen können, um ein umfassenderes Verständnis des Problems zu schaffen. Indem Sie über die gegebenen Daten und demografischen Daten hinaus denken, können Sie möglicherweise bisher unbeteiligte Zielgruppen ansprechen.

Darüber hinaus argumentiert Samuel Arbesman auf Wired.com, dass "Long Data" - also Daten, die lange Zeitspannen abbilden - tiefere Einblicke bieten als große Momentaufnahmen der aktuellen Situation. Er weist in gewissem Sinne auf die Stichprobenverzerrung von Big Data in Bezug auf die Gegenwart hin.

Stichprobenfehler sind ein ähnliches Phänomen wie Stichprobenverzerrungen, aber sie werden durch die Auswahl einer Teilmenge von Daten verursacht, die verzerrt ist. Das bekannteste Beispiel für diesen Fehler ist die Umfrage von The Literary Digest zur US-Präsidentschaftswahl 1936, die auf der Grundlage von Autoregistrierungslisten und Telefonverzeichnissen durchgeführt wurde, was zu einer Verzerrung der Stichprobe in Richtung wohlhabenderer Amerikaner führte und fälschlicherweise vorhersagte, dass FDR die Wahl verlieren würde. Um den Stichprobenfehler bei Big Data zu minimieren, müssen Sie sorgfältig abwägen, welche Teile Ihrer Daten eine repräsentative Stichprobe für das zu untersuchende Merkmal darstellen.

Generell kann es schwierig sein, eine große Datenmenge zu durchforsten, da es leicht zu Unregelmäßigkeiten kommen kann, die in einer so großen Menge nur schwer zu erkennen sind. Da Verzerrungen so leicht zu übersehen sind, liefert Big Data oft nicht die klaren Korrelationen und Antworten, die Vermarkter und Analysten benötigen, um fundierte Entscheidungen zu treffen. Big Data kann zwar Informationen über allgemeine Trends liefern, aber es mangelt an Präzision.

Die Moral von der Geschicht: Big-Data-Analysen sind einfach, aber sie ersetzen nicht die Denkarbeit, die hinter einer sorgfältigen, tiefgreifenden statistischen Analyse steckt.