Technischer blog

Was ist Data Mining?

Data Mining Prozess

Die Idee des Data Mining (Datengewinnung) ist es, Wissen und Erkenntnisse aus den Daten zu gewinnen. Um dies zu erreichen, werden Verfahren des maschinellen Lernens (Machine Learning) oder  künstlichen Intelligenz angewendet. Dabei werden die Rohdaten bearbeitet und umgewandelt, sodass die gewonnen Erkenntnisse durch andere Systeme oder dem Endnutzer verwendet werden können.

Welche Methoden werden im Data Mining verwendet?

Im Data Mining werden grundsätzlich Algorithmen zur Datenanalyse verwendet. Dazu zählen unter anderem Clustering-Algorithmen, wie etwa K-Means oder K-NN, Hauptkomponentenanalyse (PCA), Klassifizierung durch Parameter mit Entscheidungsbäumen oder Erkennung von Anomalien mithilfe mathematischer Verfahren wie T-Statistics.

Mittels Clustering lassen sich die Daten nach gemeinsamen Eigenschaften gruppieren. Dabei kann die Anzahl an Gruppen, in die der Datensatz geteilt werden soll, definiert werden. Beobachtungen, die zur selben Gruppe gehören, weisen gemeinsame Merkmale und Muster auf.

Dank der Hauptkomponentenanalyse können wir rechnerisch von komplexen zu lösbaren Problemen übergehen. Der Grundgedanke dieser Verfahren ist, mittels linearer Algebra nur jene Variablen beizubehalten, die tatsächlich Informationen zum Datensatz beitragen.

Entscheidungsbäume sind Diagramme logischer, auf Regeln beruhender Entscheidungen, die zur Darstellung und Kategorisierung von nacheinander auftretenden Bedingungen dienen. Auf diese Weise kann der untersuchte Datensatz klassifiziert werden.

Data Mining Prozess

 

Um ein Data Mining-Projekt erfolgreich abzuschließen, empfiehlt es sich, einem Ablaufplan zu folgen. Es werden in der Regel die folgenden Schritte durchlaufen:

  • Auswahl des Datensatzes: Wählen Sie den Datensatz gemäß dem festgelegten Ziel und den verfügbaren Variablen.
  • Analyse des Datensatzes: Bevor wir beginnen, ist es wichtig zu wissen, mit welchen Daten wir es zu tun haben und wie diese verteilt sind. So sind Histogramme und anomale Werte ein guter Start, um unsere Daten kennenzulernen.
  • Datenverarbeitung: Wir bereiten die Daten so auf, dass sie sich an die Anforderungen des verwendeten Algorithmus anpassen.
  • Anwendung des Data Mining-Algorithmus: Nach der Untersuchung des Problems wenden wir das am besten für unser Problem und unsere Daten geeignete Verfahren an.
  • Erlangen von Wissen: Nach Anwendung des gewählten Algorithmus erhalten wir das Ergebnis. Das Ergebnis kann sich – je nach Komplexität des Problems und der angestrebten Lösung – aus einem oder aus mehreren Algorithmen ergeben. Der Einsatz von mehr oder weniger Algorithmen verbessert das Endergebnis nicht unbedingt. Für ein optimales Ergebnis müssen wir jene Algorithmen auswählen, die sowohl für das Problem als auch die Daten am besten geeignet sind.
  • Auswertung des Endergebnisses: Nach Erhalt der Modelle im vorherigen Schritt müssen wir die Ergebnisse auswerten. Es ist wichtig, die Gültigkeit der Endergebnisse zu überprüfen. Von diesem Punkt hängt der ganze Sinn der vorherigen Verfahrensschritte ab.

Wozu dient Data Mining?

Bevor wir mit der Untersuchung der Daten beginnen, müssen wir die Ziele festlegen, die wir erreichen möchten. Daher ist es wichtig zu wissen, was wir mit Data Mining erreichen können.

So kann z. B. eine Telefongesellschaft anhand eines Entscheidungsbaums die Kunden klassifizieren, die dem Unternehmen den Rücken gekehrt haben. Nach dieser Analyse kann die Telefongesellschaft Indikatoren definieren, um künftige Abgänge frühzeitig zu erkennen.

Ein Energieversorgungsunternehmen kann anhand des Verbrauchs seine Kunden in Cluster einteilen. Auf diese Weise lässt sich einen Kunden-Prototyp erstellen und sein Segment gemäß dem Verbrauch bestimmen.

Wie in diesen beiden Beispielen können wir unsere Marketing-Kampagnen auf konkrete Zielgruppen ausrichten. Dabei überlegen wir, welche Gruppe für uns am rentabelsten ist, um alle Bemühungen darauf zu konzentrieren. Sobald wir unsere Zielgruppe kennen, haben wir eine Vorstellung von ihren Vorlieben und ihrer Lebensweise – was eine optimale Marketing-Strategie ermöglicht.