Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

MapR Technologies, Softwareanbieter für die Analyse großer Datenmengen, wird in Zukunft seine eigene Apache Hadoop Distribution für Googles Infrastructure-as-a-Service Google Compute Engine bereitstellen. MapR für die Google Compute Engine wird zunächst kostenlos als Private Beta für eine ausgewählte Anzahl von Benutzern zur Verfügung stehen. Wer Interesse an der Big Data Analyse hat, kann sich hier dafür bewerben.

Big Data: MapR integriert seine Hadoop Distribution mit der Google Compute Engine

Big Data Analyse auf der Google Compute Engine

Mit der Kombination von Googles neuen IaaS und MapRs Hadoop sind Nutzer damit in der Lage große Implementierungen von MapR Cluster on-Demand bereitzustellen und sich damit ein Cloud-basiertes System für die Analyse großer Datenmengen aufzubauen. Google hatte MapReduce ursprünglich für sein interes Such-Framework entwickelt.

Ein Meilenstein für die Big Data Analyse

Während der Google I/O demonstrierte MapR bereits, zu was seine Hadoop Implementierung in der Lage ist. Ein 1TB TeraSort Job wurde innerhalb von 1 Minute und 20 Sekunden verarbeitet. Dabei nutzte MapR einen Google Compute Engine Cluster bestehend aus 1.256 Nodes, 1.256 Platten und 5.024 Cores für gerade einmal 16 US-Dollar.

Zum Vergleich: Der aktuelle Weltrekord für den TeraSort liegt bei 1 Minute und 2 Sekunden. Dazu wurde ein physikalischer Cluster mit mehr als vier Mal so vielen Festplatten, doppelt so vielen Cores und weitere 200 Server benötigt. Kosten: Mehr als 5.000.000 US-Dollar.

Integration

Für die Integration von MapR mit der Google Compute Engine stehen mehrere Standard MapR Konfigurationen zur Verfügung. Nutzer können die Google Compute Engine je nach Bedarf nutzen und können, wenn nötig, mehr als 1.000 Node Cluster starten.