
Das müssen Sie für Big Data können
Skills für Big Data
Auf der CeBit vergangene Woche wurde Big Data als einer der zentralen Faktoren für die digitale Transformation gefeiert. Die Zeit ist reif, sich mit der Technologie auseinander zu setzen. Doch welche Skills brauchen zukünftige Big Data Spezialisten konkret? Diese Frage beschäftigt viele IT-Experten, auch in unserer Big Data Umfrage wurde oft danach gefragt. Für den vierten Teil unserer Big Data Reihe haben wir die wichtigsten Kenntnisse und Fähigkeiten zusammengestellt.
Das Thema Big Data ist komplex und vielschichtig – genauso vielfältig sieht auch das Kenntnisspektrum eines Data Scientists aus. Für die Arbeit in Big Data Projekten ist daher Know-how aus mehreren Fachbereichen wichtig.
Programmierkenntnisse
Für all diejenigen, die aus der klassischen IT kommen, ist dieser Bereich der naheliegendste. In Sachen Programmiersprachen sind Python, Java, R und C++ empfehlenswert. Das wichtigste Framework für Big Data – Apache Hadoop (s. unten) – basiert auf Java, sodass die Programmiersprache essentiell ist, um mit Hadoop arbeiten zu können.
Datenstrukturen und Algorithmen
Welche Möglichkeiten gibt es, die zu analysierenden Daten zu speichern und zu organisieren? Dazu sollten Big Data Experten die Grundlagen unterschiedlicher Datentypen und -strukturen kennen, zum Beispiel binäre Suchbäume, Rot-Schwarz-Bäume oder Hashtabellen. Auch ein Grundverständnis von Algorithmen ist wichtig, um die Daten auf ein Problem hin zu analysieren.
Datenbank-Skills
Wo viele Daten sind, da ist auch SQL – eine unbedingte Empfehlung für die Know-how-Liste. Doch immer öfter stoßen relationale SQL-Datenbanken an ihre Grenzen. Hier kommen NoSQL-Datenbanken ins Spiel, mit denen sich auch unstrukturierte Daten speichern lassen.
Mathematische und statistische Grundlagen
Quantitative Methoden sind ebenfalls hilfreich für Big Data Spezialisten. Hier helfen Grundkenntnisse der Mathematik (v.a. lineare Algebra und multivariable Infinitesimalrechnung) und Statistik. Auch mit entsprechenden Softwarelösungen wie SAS, Matlab oder SPSS sollten sich Data Scientists auskennen.
Datenvisualisierung
Oft ist es in Big Data Projekten unumgänglich, die Rohdaten auch visuell aufzubereiten, um so neue Blickwinkel auf die Informationen zu bekommen und neue Erkenntnisse zu gewinnen. Spätestens bei der Kommunikation über die Arbeit oder Ergebnisse eines Big Data Projekts sollten „bunte Bildchen“ nicht fehlen. Denn nicht jeder Kollege oder Entscheidungsträger kann mit seitenlangen Datenauswertungen etwas anfangen. Ein Big Data Experte muss auch ein Gespür dafür haben, welche Darstellungsform der Informationen am besten ist: „klassisch“ als Säulen-, Balken oder Torten-Diagramm oder in neueren Formen wie Karten, Heat Maps oder Tree Maps. Auch sollte man sich mit entsprechenden Tools zur Visualisierung auseinandersetzen, zum Beispiel tableau oder dygraphs.
Tätigkeitsbereich des Unternehmens
Hier geht es weniger um konkrete Skills, die man nach einer Liste abarbeiten kann, sondern um den Blick über den Tellerrand. Data Scientists müssen wissen und verstehen, um was es im Big Data Projekt überhaupt geht. Hier helfen die Mitarbeiter der Fachbereiche: Was versprechen sich die Mitarbeiter eigentlich von einer Big Data Lösung? Was sagen die erhobenen Daten aus und wie können sie bewertet werden? Welche Kennzahlen werden zur Evaluierung herangezogen?
Neben all diesen Skills kommt beim Thema Big Data kaum jemand an Apache Hadoop vorbei. Das Open Source Framework basiert auf dem MapReduce-Algorithmus von Google. Damit können Berechnungen für große Datenmengen parallel auf Computerclustern ablaufen. Hadoop ist in Java geschrieben und spätestens jetzt wird deutlich, warum der Programmiersprache so große Bedeutung zukommt.

Ebenso wichtig sind viele Tools innerhalb des immer größer werdenden Hadoop-Ökosystems. Ein paar Beispiele:
- Das Hadoop Distributed File System (HDFS) als Dateisystem, das speziell auf die verteilte Verwaltung sehr großer Datenmengen ausgelegt ist.
- NoSQL-Datenbanken wie Cassandra, HBase oder MongoDB, die die Beschränkungen von relationalen SQL-Datenbanken überwinden. Sie kommen vor allem bei Datenmengen im Petabyte-Bereich zum Einsatz.
- Werkzeuge für SQL-Abfragen auf Hadoop-Clustern, zum Beispiel Hive, Impala oder Phoenix.
- Analyseplattformen wie Pig, mit dem sich komplexe MapReduce-Transformationen auf einem Hadoop-Cluster ausführen lassen.
- Mit Apache Flume können große Mengen an Logdaten verarbeitet werden.
Es ist nicht immer einfach, im Big Data Dschungel den Überblick zu behalten. Neben all den fachlichen Aspekten sind daher auch eine große Portion an Neugier und Lernbereitschaft wichtig. Dafür warten spannende und fordernde Projekte. Denn die Technologie hat sich in den letzten Jahren rasant entwickelt und wird das auch weiterhin tun.
Dieser Artikel ist Teil unserer Big Data Reihe
Lesen Sie außerdem:
Lesermeinungen zum Artikel
Es wurden noch keine Bewertung abgegeben.