
IBM setzt auf Open Source, oder genauer gesagt auf ein Projekt namens „Apache Spark“. Sie gehen sogar so weit, dass sie es als das wichtigste Open Source Projekt des Jahrzehnts bezeichnen. Das Vertrauen des Unternehmens in Spark ist so stark, dass es tausende interne Entwickler abgestellt hat, um an Themen, die mit Spark verwandt sind, mit der offenen Community des Projekts zu arbeiten. Alles was dabei gelernt wird, lässt man mit Hilfe der IBM SystemML Machine-Learning-Technik in das Ecosystem mit einfließen.
Das ist SparkSpark ist ein Apache Open Source Projekt das 2009 gegründet wurde. Es handelt sich im Grunde um eine Engine die massive Datenmengen sehr schnell verarbeiten kann. Es lässt sich dabei als Hadoop Yarn Cluster, auf Apache Mesos, auf EC2 oder auch im selbständigen unabhängigen Cluster Modus betreiben. Es kann Daten in HDFS, HBase, Cassandra, Hive und jeglichem Hadoop Eingabeformat, momentan wird Scala, Java und Python unterstützt, verarbeiten.
Im Kern dient Spark rein zum Behandeln von allgemeinen Daten, jedoch verbergen sich unter der Oberfläche noch weitaus spannendere Funktionen wie die Verarbeitung von Streaming-Daten, interaktive Abfragen (Interactive-Queries) und es verfügt über die Fähigkeit des maschinellem Lernens (Machine Learning). Letzteres macht es besonders für das IoT-Anwendungen (Internet-of-Things) interessant, was auch das brennende Interesse von IBM begründet.
Das Unternehmen sagt, dass Spark zum einen dramatisch die Leistung von Applikationen, die auf großen Datenmengen basieren verbessert und zum anderen vereinfacht es radikal den Prozess bei der Entwicklung von intelligenten Applikationen, welche mit Daten arbeiten.
IBM zeigt sich ehrgeizig
IBM möchte in den kommenden Monaten Spark in eine Reihe eigener Systeme integrieren. Dazu gehören die hauseigene Analytics and Commerce Plattform und IBMs Watson Health Cloud. Zudem soll Spark als Cloud Service mit IBM Bluemix angeboten werden. Zu den ehrgeizigen Zielen gehört auch, dass mehr als 1 Millionen Forscher und Entwickler an Spark mit Hilfe von Partnerschaften mit AMPLab, DataCamp, MetiStream, Galvanize und Big Data University MOOC geschult werden sollen.
IBM hat sich einiges vorgenommen und man kann nur erahnen, wie sich dieses Engagement als Investition in Zahlen ausdrücken lässt. Sicher ist, wer mit IBM Lösungen arbeitet, sollte sich in Zukunft wohl mit Spark ein wenig näher beschäftigen. Apache Spark kann übrigens kostenlos über die Homepage des Projekts heruntergeladen werden.
Bildquelle: © Julien Eichinger - Fotolia.com