Oh Snap!

Please turnoff your ad blocking mode for viewing your site content

img
Home / Technologie / Big Data und Analytics – Definition und Begriffsbestimmung

Big Data und Analytics – Definition und Begriffsbestimmung

/
/
/
11 Views

Ziel des Artikel ist es, ein Verständnis für die Begriffe Big Data und Analytics zu vermitteln. Hierfür werden die Begriffe Analytics und Big Data erläutert und definiert. Im Anschluss können Sie die wesentlichen technologischen Aspekte von Big Data Analytics in einem weiteren Artikel erfahren und die Abgrenzung zu traditionellen Systemen verstehen.

Analytics

“Big data analytics is where advanced analytic techniques operate on big data sets. Hence, big data analytics is really about two things—big data and analytics […].” (Russom, 2011) Der Begriff Big Data Analytics besteht demnach aus den zwei Komponenten „Big Data“ und „Analytics“. Mit Analytics bezeichnet man allgemein die „Informationsgewinnung aus großen Datenmengen auf Basis von analytischen Ansätzen“ (Köhler & Meir-Huber, 2014). Nach Davenport und Harris (2007) umfasst der Begriff Analytics neben der umfassenden Nutzung von Daten statistische und quantitative Analysen, explanative und prädikative Modelle sowie ein faktenbasiertes Management um Maßnahmen und Entscheidungen vorantreiben zu können. Angesichts von Wissen als Entscheidungsgrundlage für Führungskräfte sind Daten für Unternehmen von einem besonderen Wert (Hutzschenreuter, 2009). Um zu verstehen wie Daten im Unternehmen zu Wissen verarbeitet werden können, ist die Unterscheidung von Daten, Information und Wissen essentiell. In der Abbildung ist die hierarchische Unterscheidung von Zeichen, Daten, Information und Wissen nach dem Modell von Rehäuser und Krcmar (1996) dargestellt.

Verknüpfung Wissen Zeichen Daten

Die Begriffshierarchie Zeichen, Daten, Information und Wissen (Rehäuser & Krcmar, 1996)

Das in der Hierarchie kleinste zugreifbare Element sind die Zeichen. Verknüpft man die Zeichen nach einer bestimmten Syntaxregel, wird von Daten gesprochen. „Daten sind das Gegebene zur Verarbeitung ohne Verwendungshinweise.“ (Rehäuser & Krcmar, 1996) Setzt man beispielsweise „1“, „8“, „0“ und „ , “ zu „1,80“ zusammen, ist die Folge von Zeichen noch ohne Aussagekraft. Informationen wiederum sind Daten, die in den Kontext eines Problemzusammenhangs gestellt werden. Die letzte Stufe der Hierarchie, das Wissen, entsteht durch die sinnvolle und zweckorientierte Vernetzung von Information durch ein Subjekt. In Anwendungen für Big Data ist Analytics wesentlicher Bestandteil und umfasst zahlreiche Technologien zur Verarbeitung der Daten (Bartel et al., 2014).

Big Data

Trotz der immer intensiveren Auseinandersetzung mit Big Data existiert in der gegenwärtigen Literatur keine einheitliche Definition. Daher sind eine Strukturierung des abstrakten Begriffes und die Ausarbeitung eines gemeinsamen Verständnisses als Grundlage für diese Arbeit notwendig. Weit verbreitet ist die Definition der Eigenschaften nach Gartner: “Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.” (Gartner, Inc., 2013) Die drei in der Definition aufgeführten Dimensionen gehen auf Doug Laney zurück, der das dreidimensionale Modell in seiner Forschungsarbeit von 2001 erstmals erwähnte. Laney hat mit seiner Arbeit den Grundstein gelegt, die Herausforderungen im Datenmanagement entlang der Dimensionen volumes, velocity und variety zu definieren (Laney, 2001). Sofern diese drei Dimensionen vorliegen, sprechen Experten von Big Data. Die drei Dimensionen, deren Bedeutung und die damit einhergehenden Herausforderungen werden im Folgenden betrachtet. Es handelt sich um das ansteigende Volumen der Daten (englisch volume), die ansteigende Geschwindigkeit (englisch velocity), mit der Daten generiert und verarbeitet werden, sowie die zunehmende Vielfalt der Datenbestände (englisch variety). Da sich die Größen der drei Dimensionen im zeitlichen Fortschritt stets ändern, gibt es bewusst keine absoluten Größenangaben. Beispielsweise wird es durch das stetig ansteigende Wachstum der verfügbaren Datenmengen als nicht sinnvoll erachtet, die Definition des Datenvolumens auf eine bestimmte Größenordnung festzulegen (Mayer-Schönberger & Cukier, 2013, S. 42). In gleichem Maß gilt das auch für die anderen zwei Dimensionen.

Das Kriterium des Datenvolumens zeigt sich in dem Phänomen einer massiv anwachsenden Verfügbarkeit von Daten, welcher Unternehmen zunehmend ausgesetzt sind. Während im Jahr 2000 noch 800.000 Petabytes[1] an Daten gespeichert worden sind, wird für das Jahr 2020 von 35 Zettabytes[2] gespeicherten Datenvolumen ausgegangen (Zikopoulos et. al, 2011, S. 5). Der Ursprung und die Quellen der Daten sind vielfältig. Generiert werden die Daten zum Beispiel durch Finanztransaktionen, Einkäufe, Verbindungs- und Standortinformationen, Navigationsgeräten und Fahrzeugen, Sensoren auf Fertigungsstraßen oder Warenlagern, Einträge in soziale Medien oder Video- und Tondateien (Heuer, 2013, S. 5). Viele Unternehmen stehen vor Problemen bei der Erfassung, Speicherung und Verarbeitung von Daten. Herausfordernd ist dabei die Dimension velocity. Das Kriterium der Geschwindigkeit beschreibt das Problem der Entstehungsraten großer Datenmengen und deren Auswertung innerhalb kürzester Zeitspannen. Die Entstehungsgeschwindigkeit neuer Daten wird durch die umfangreiche Anzahl vernetzter Sensoren und die Verschmelzung der Informations- und Kommunikationstechnologie im digitalen Zeitalter angetrieben (Dapp & Heine, 2014). Während Daten früher in bestimmten Abständen und zur zeitlich schrittweisen Verarbeitung anfielen, kann die Analyse der ununterbrochen eingehenden Daten entscheidend sein (Heuer, 2013, S. 11). Die Auswertungen in Echtzeit oder annähernder Echtzeit erlaubt es den Unternehmen, schnell und flexibel zu agieren und so strategische Wettbewerbsvorteile zu sichern (Reimer et al., 2013). Variety, das dritte Grundmerkmal von Big Data, beschreibt die Vielfalt der Datenquellen und die Vielfalt der Datenformate (Brücher, 2013, S. 51). Insbesondere traditionelle Datenbanksysteme stoßen mit der Datenvielfalt an ihre Grenzen. Die Daten können in strukturierte, semistrukturierte und unstrukturierte Daten gruppiert werden (Bartel et al., 2014, S. 12). Big Data besteht nur zu geringen Teilen aus strukturierten Daten, wie sie mit traditionellen Datenverarbeitungssystemen erfasst werden können, und zu einem überwiegenden Teil aus unstrukturierten Daten (Klein, Tran-Gia & Hartmann, 2013). Strukturierte Daten können zum Beispiel Kundenstammdaten sein, semistrukturierte Daten wie E-Mails bestehen aus einen strukturierten und unstrukturierten Teil. Bislang konnten keine Analysen von unstrukturierten Daten in relationalen Datenbanken durchgeführt werden, doch durch den Einsatz von Big-Data-Lösungen werden Auswertungen von strukturierten als auch unstrukturierten Daten möglich.

Der Begriff Big Data wird aber häufig nicht nur für die Daten selbst, sondern auch für die unterschiedlichsten Konzepte verwendet. Damit aus Big Data geschäftsrelevante Erkenntnisse gewonnen werden können, sind neben Analytics die Daten-Haltung, der Daten-Zugriff und die Visualisierung für eine Big Data Komplettlösung nötig (Bartel et al., 2014). Bartel et al. definieren Big Data nicht nur im Sinne von unterschiedlich strukturierten Daten aus vielfältigen Quellen, sondern fügen dem ursprünglich von Laney angedachten Begriff die wirtschaftliche Gewinnung und Nutzung von entscheidungsrelevanten Erkenntnissen hinzu (2012, S. 7). Weiterhin sehen die Autoren im Einsatz von Big Data „Konzepte, Technologien und Methoden, um die geradezu exponentiell steigenden Volumina vielfältiger Informationen noch besser als fundierte und zeitnahe Entscheidungsgrundlage zu verwenden, um die Innovations- und Wettbewerbsfähigkeit von Unternehmen weiter zu steigern“ (Bartel et al., 2012, S. 7).

Kern der Anwendungen zur Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse ist die Analytik, da „die Wertschöpfung von Big Data […] erst über Analytics“ erfolgt (Clemens, 2012). Aus diesem Grund nimmt Analytics für Big Data einen sehr hohen Stellenwert innerhalb des weit gefassten Big Data-Begriffs ein.

[1] Petabyte=1015 Byte

[2] Zettabyte=1021 Byte

  • Russom, P. (2011). Big Data Analytics. TDWI Best Practices Report, Fourth Quarter 2011.
  • Köhler, M., Meir-Huber, M. (2014). #Big Data in #Austria: Österreichische Potenziale und Best Practice für Big Data. (p18ff) Österreich: IDC Central Europe GmbH & Austrian Institute of Technology GmbH, Lfd.Nr. 4045457.
  • Davenport, T. H. & Harris, J. G. (2007). Competing on Analytics: The New Science of Winning. Boston: Harvard Business Sehool Press.
  • Hutzschenreuter, T. (2009). Allgemeine Betriebswirtschaftslehre: Grundlagen mit zahlreichen Praxisbeispielen. Wiesbaden: Gabler. S. 436 3. Auflage 2009.
  • Rehäuser, J., Krcmar, H. (1996). Wissensmanagement im Unternehmen. Schreyögg, G. / Conrad, P. (Hrsg.): Managementforschung 6, Wissensmanagement. Wiesbaden 1996, S. 1–40.
  • Bartel, J., Böken, A., Buschbacher, F., Falkenberg, G., Feulner, J., Fuchs, G., Gödecke, N., Hemsenm H., Henß, S., Kemperdick, R., Kisker, H., Klenk, S., Klömpges, H., Landrock, H., Lenz, M., Lipp, S., Mahnkopf, D., Markl, V., Mester, A., Paaß, G., Ribbrock, A., Roser, O., Rüping, S., Schinkel, F., Sylla, K., Urban, G., Urbanski, J., Jouanne-Diedrich, H. K., Voß, A., Weber, M., Wieser, H. (2014). Big-Data-Technologien – Wissen für Entscheider. Berlin: Bitkom (Hrsg.).
  • Gartner, Inc. (2013). IT Glossary. Abgerufen am 11. November 2014, unter http://www.gartner.com/it-glossary/big-data.
  • Laney, D. (2001). 3-D Data Management: Controlling Data Volume, Velocity and Variety. Application Delivery Strategies by META Group Inc., 949. Abgerufen am 5. Dezember 2014, unter http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf.
  • Mayer-Schönberger, V., Cukier, K. (2013). Big Data – Die Revolution, die unser Leben verändern wird. München: redline Verlag.
  • Zikopoulos, P. C., Eaton, C., deRoos, D., Deutsch, T., Lapis, G. (2011). Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. McGraw-Hill Osborne Media.
  • Heuer, S. (2013). Kleine Daten, große Wirkung. Big Data einfach auf den Punkt gebracht. DigitalKompakt LfM #06. Landesanstalt für Medien Nordrhein-Westfalen (LfM). Düsseldorf.
  • Reimer, B., Buschbacher, F., Messerschmidt, M., Stüben, J., Rasch, M., Ehrig, M. (2013). Big Data – Bedeutung, Nutzen, Mehrwert. Hrsg.: PwC, Frankfurt am Main.
  • Brücher, C. (2013). Rethink Big Data. Heidelberg, München, Landsberg, Frechen, Hamburg: mitp Verlagsgruppe Hüthig Jehle Rehm GmbH, 1. Auflage 2013, S. 51.
  • Klein, D., Tran-Gia, P., Hartmann, M. (2013). Big data. Informatik Spektrum 36(3):319–323.
  • Clemens, R. (2012). Die Wertschöpfung aus Big Data erfolgt erst über Analytics. T-Systems Deutsche Telekom AG, Abgerufen am 27. Januar 2015, unter http://www.t-systems.de/news-media/die-wertschoepfung-aus-big-data-erfolgt-erst-ueber-analytics/995550.
  • Facebook
  • Twitter
  • Google+
  • Linkedin
  • Pinterest

Leave a Comment

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

It is main inner container footer text