Predictive Maintance

Was ist BIG Data?

Was ist Big Data?

Big Data ist ein relativ neuer Begriff in der Geschäftswelt. Dieser Beitrag soll ein wenig Licht ins Dunkel bringen, damit wir etwas mehr darüber erfahren, was wir mit Big Data meinen.

Wie man aus der Übersetzung ableiten kann, handelt es sich bei Big Data um nichts anderes als um eine Reihe von Technologien und Tools, die eine Arbeit mit großen Datenmengen ermöglichen. Förmliche Definitionen des Begriffs Big Data gibt es wie Sand am Meer; hier sei nur eine der ersten erwähnt: Sie stammt von Gartner, um das Jahr 2001, und gilt noch heute als Referenz: „Big Data sind sehr vielfältige Daten, die in zunehmendem Umfang und immer schneller auftreten und entstehen“.

So entstand Big Data als Reaktion auf eine Realität, die es zuvor so nicht gab: Wie kann man unvorstellbar große, weiter zunehmende und enorm schnell entstehende Datenmengen am besten speichern und verarbeiten?

Die fünf Vs von Big Data

Die Definition von Gartner bezieht sich auf immanente Merkmale, die Big Data-Umgebungen auszeichnen: Volume, Velocity und Variety = Menge, Geschwindigkeit und Vielfalt. Diese Eigenschaften werden als die drei Vs von Big Data bezeichnet.

  • Volume = Menge: Bei Big Data geht es immer um enorme Datensätze. Big Data heißt „große Daten“. Deshalb können wir sagen, dass die Datenmenge das am meisten mit Big Data assoziierte Merkmal ist.
  • Velocity = Geschwindigkeit: Diese Daten werden schwindelerregend schnell erzeugt, und die Systeme müssen sie sehr schnell erfassen, um keine Engpässe zu verursachen. Bisweilen kann für eine effiziente Entscheidungsfindung auch die Datenverarbeitung in Echtzeit erforderlich sein.
  • Variety = Vielfalt: Die zu verarbeitenden Daten können strukturiert sein, etwa die in Datenbanken gespeicherten Daten, oder unstrukturiert, wie Textdokumente, E-Mails, Audios, Videos, Bilder Sensordaten etc. Die meisten heute erzeugten Daten sind unstrukturiert, was die Verwaltung und das Gewinnen von Informationen erheblich erschwert.

Zwar bezieht sich Gartners Definition auf die drei Grundmerkmale jedes Big Data-Systems, jedoch ist sie inzwischen ein wenig unzulänglich. Zwei wichtige zu berücksichtigende Merkmale sind hinzugekommen: Veracity (Glaubwürdigkeit) und Value (Wert).

  • Veracity = Glaubwürdigkeit: Angesichts der sehr schnell erhaltenen, riesigen Datenvolumen aus unterschiedlichen Quellen gibt es mehr als berechtigte Gründe, die Glaubwürdigkeit dieser Daten zu hinterfragen. Dieser Punkt stellt eine große Herausforderung für die Unternehmen dar, denn es ist entscheidend, die Glaubwürdigkeit der Daten zu gewährleisten. Nicht selten treffen falsche oder unvollständige Daten ein, die je nach ihren Eigenschaften bei der Analyse Schäden verursachen können. Eine umfassende Datenbereinigung kann jedoch ausgesprochen kostspielig sein. Deshalb ist es entscheidend, die richtigen Daten zu bereinigen.
  • Value = Wert: Dieser Aspekt ist unserer Meinung nach einer der wichtigsten, wenn es um Big Data-Systeme geht. Falls die Daten nach der Verarbeitung und Umwandlung in Informationen keinen Mehrwert für das Unternehmen bieten, haben wir nichts erreicht. Es ist also außerordentlich wichtig, Big Data-Systeme mit dem Ziel aufzubauen, Mehrwert für das Unternehmen zu schaffen. Das heißt, die gewonnenen Informationen sollen die Entscheidungsfindung verbessern oder leiten, die interne Verwaltung verbessern oder neue optimierte Strategien vorgeben. Kurz gesagt, Unternehmen sollen daraus den größtmöglichen Wettbewerbsvorteil erzielen.

Big Data des 21. Jahrhunderts

 

Vom Jahr 2005 an kam es zu einer regelrechten Initialzündung von Big Data-Systemen, vorangetrieben insbesondere von zwei Faktoren: erstens die enormen, von den Benutzern sozialer Netzwerke und Online-Dienste generierten und zu verarbeitenden Datenmengen, und zweitens die Entwicklung der Hadoop-Technologien (und ab 2014 Apache Spark), die eine verbilligte Nutzung und Speicherung dieser Daten ermöglichten.

Seitdem ist das von den Benutzern erzeugte Datenvolumen rasant und exponentiell gewachsen. Darüber hinaus erzeugen nicht nur Menschen die Daten, sondern auch an Internet angeschlossene elektronische Geräte (Internet der Dinge: IdD/IoT) und das maschinelle Lernen produzieren immer mehr Daten.

Heute behandeln Big Data-Verfahren so unterschiedliche Probleme wie die Erstellung und Entwicklung neuer Produkte, die Analyse von Kundenerlebnissen, die betriebliche Effizienz von Unternehmen oder die prädiktive Wartung von Produktionsketten.