Wie funktioniert Big Data? Data Analytics und Data Science

Massiver Anstieg von Daten

Daten entstehen bei jeder Nutzung und Aktivität digitaler oder digital verbundener Produkte. Das kann bei der individuellen Nutzung des Smartphones oder des Bankautomaten sein, aber auch bei einem Großteil technischer Lösungen wie bei Straßenlaternen, Flugzeugen oder Fertigungsanlagen. Mit dem massiven Verfall der Speicherkosten seit den 1980‘er Jahren und der Weiterentwicklung und Verbreitung der Cloud-Technologien, erlebte die Welt in der ersten Hälfte der 2010‘er Jahre einen regelrechten ‚Daten-Boom‘. Allein innerhalb des Jahres 2014 entstanden 90% der bis dahin produzierten gesamten Datenmenge.





Was ist Big Data?

Im sprachlichen Umgang mit großen Datenmengen hat sich der Begriff Big Data etabliert. Er dient als Sammelbegriff und bezeichnet sowohl Massendaten an sich, aber auch IT-Lösungen und Systeme, um große Datenmengen verarbeiten und interpretieren zu können.

Ihre große Masse ist aber nur eines von mehreren Kriterien, die Datenmengen als Big Data definieren. Daten werden dann als Big Data bezeichnet, wenn sie zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auswerten zu können. Etabliert für die Definition von Big Data haben sich heute in der Fachwelt die sog. 3 V nach Doug Laney, die im Laufe der Zeit auf 5 V erweitert wurden.





Data Analytics und Data Science

Aus systematischen Auswertungen von Daten können wertvolle Erkenntnisse für Unternehmen und Organisationen abgeleitet werden. Immer mehr Unternehmen befassen sich daher mit Big Data und suchen gezielt nach Expertinnen und Experten in Data Analytics und Data Science. Was aber unterscheidet die beiden Fachbereiche voneinander?


Data Analytics arbeitet mit strukturierten Daten, d.h. die Daten sind schon in einer tabellarischen Form in Spalten und Zeilen in einer Datenbank gespeichert.

Es werden Daten aus der Vergangenheit auf Muster, Fehler und Besonderheiten hin analysiert und mathematische und statistische Tools benutzt, um Abhängigkeiten und Verhältnisse darzustellen. Der Blick ist eher auf die Vergangenheit gerichtet, z. B. wird untersucht, zu welchen Uhrzeiten bestimmte demografische Gruppen ein bestimmtes Produkt gekauft haben.

Daten Analyst*innen arbeiten bei überschaubaren Datensätzen häufig mit Excel, ansonsten kommen zum Beispiel Python, SQL oder auch Tableau zum Einsatz.


Data Science arbeitet gleichermaßen mit strukturierten und unstrukturierten Daten. Mittels mathematischer und statistischer Methoden und Programmierkompetenzen werden Prognosen getroffen und Thesen aufgestellt.

Der Blick ist auf die Zukunft gerichtet. Im Gegensatz zu Data Analytics ist Data Science nicht danach bestrebt, konkrete Fragen zu beantworten. Vielmehr geht es darum, Probleme zu lösen und Innovationsansätze zu finden. Die Expertin oder der Experte nutzt dabei hauptsächlich Methoden des Machine Learning.

Für die Datenanalyse, Datenverarbeitung und Datenvisualisierung gibt es zahlreiche kommerzielle Softwareprogramme und -plattformen, aber auch Open Source-Tools.


Du möchtest Python für Data Science lernen? Besuche unser Data Science Online Intensivtraining und lerne in fünf Tagen alle wichtigen Tools und Frameworks um Big Data Analysen durchzuführen.

Das nächste Online-Training findet vom 08.11. – 12.11.2021 statt. Jetzt mehr erfahren!

#datascience #bigdata #python #r #analytics #opensource