Tag: Hadoop


Hadoop oder Data Stacks? Bausteine für eine erfolgreiche Datenanalyse

  • Datenanalyse ist die wichtigste Disziplin im digitalen Zeitalter
  • Unterschiedliche Betriebs- und Deployment-Szenarien ermöglichen die Umsetzung von erfolgreichen Use Cases
  • Stackology und Hadoop sind beide für den Einsatz und die Erfüllung geeignet
  • Die Wahl der Strategie muss zur jeweiligen Unternehmenskultur und den Geschäftsmodellen entsprechend ausgewählt werden

Continue reading “Hadoop oder Data Stacks? Bausteine für eine erfolgreiche Datenanalyse” »



Big Data: Red Hat veröffentlicht seinen Storage Server 2.0

Auf der Suche nach einem on-Premise Cloud Storage oder Probleme mit Big Data? Dann hat RedHat da etwas neues im Portfolio, den Red Hat Storage Server 2.0. Die Open-Source-Storage-Lösung hilft beim Management unstrukturierter Daten und setzt nach Angaben des Open Source Giganten neue Standards im Enterprise- und Cloud-Storage-Markt. So soll die Lösung die Innovationen aus der Open-Source-Community zusammen mit der Leistungsfähigkeit standardbasierter x86-Server kombinieren und ermöglicht vielfältige Storage-Lösungen in den Rechenzentren vor Ort, in der Cloud und in hybriden Umgebungen.

Biiiig Data

Dank Social Media, Dokumenten, E-Mails, Bildern, Video- und Audio-Daten explodieren branchenweit die Mengen an unstrukturierten Daten. Das Wachstum der Daten übertrifft bei Weitem das der strukturierten Daten. Bis zum Jahr 2020 sollen laut Cisco 50 Milliarden Geräte mit dem Internet verbunden sein. Diese Prognose wird von einer IDC Studie unterstützt, nach der das digitale Ungetüm um das 50-Fache anwachsen wird – wobei wir hier von 90 Prozent an unstrukturierten Daten sprechen, die 2011 bereits 1,8 Zetabyte umfassten. Mit diesen Hintergrundinformationen stehen Unternehmen vor erheblichen Herausforderungen, die Daten zu verarbeiten und zu speichern. Proprietäre, monolithische Hardwarelösungen sind nicht dafür ausgerüstet und bieten den Unternehmen keine dafür geeigneten kostengünstigen Möglichkeiten.

RedHat hat dafür was im Portfolio

Die Storage-Lösung von Red Hat greift auf die Innovationen aus der Open-Source-Community zurück, um dieses riesige Wachstum zu bewältigen. Der Red Hat Storage Server 2.0 ermöglicht dazu eine Zusammenführung von File Storage und Object Storage. Dazu können Unternehmen sehr große Datenmengen in einem einzigen Storage-Pool gemeinsam speichern. Die Kombination von File und Object Storage soll die Verwaltung unterschiedlichster Daten vereinfachen und Unternehmen eine höhere Speicher- und Informationsflexibilität bieten, um das rasante Wachstum unstrukturierter Daten zu bewältigen und schneller sowie kostengünstiger auf die Daten zugreifen zu können.

Anhand des Red Hat Enterprise Linux soll der Red Hat Storage Server für mehr Wahlfreiheit sorgen und Unternehmen helfen leistungsfähige, skalierbare und verfügbare Speicherlösungen aufzubauen. Der Red Hat Storage Server adressiert das eigene Rechenzentrum, Private oder Public Cloud sowie hybride Umgebungen und eignet sich für das Speichern großer Datenmengen in den Bereichen High Performance Computing, arbeitsplatznahe Archivierung und die Ablage von Medieninhalten.

Die Funktionen des Red Hat Storage Server 2.0

  • Kompatibel mit mehr als 50 Dual-Socket-x86-Servern unterschiedlicher Hardwarehersteller
  • Unterstützt verschiedene Dateizugriffsprotokolle wie Common Internet File System (CIFS), Network File System (NFS), HTTP und OpenStack
  • Hohe Sicherheit ohne Kompromisse bei der Zugänglichkeit und Verfügbarkeit der Daten, einschließlich Georeplikation. Damit lassen sich selbst anspruchsvollste Speicherlösungen aufbauen.

Big Data und Hadoop

Die Software unterstützt Big Data Infrastrukturen und ist mit Apache Hadoop kompatibel. Dazu lässt sich der Red Hat Storage Server entweder zusammen mit dem Hadoop Distributed File System (HDFS) oder alleine nutzen. Er soll für einen schnellen Datenzugriff sorgen und öffnet Hadoop-Implementierungen für datei- oder objektbasierte-Applikationen. Die Managementkonsole des Red Hat Storage Server basiert auf dem oVirt-Projekt – einer Open-Source-Infrastruktur- und Virtualisierungsmanagementplattform – und bietet Administratoren von einem Punkt aus einen vollständigen Überblick über die Storage-Cluster.


Bildquelle: http://www.hostingtecnews.com



Cloudera und IBM kooperieren im Big Data Bereich

IBM und Hadoop Pionier Cloudera werden im zukunftsträchtigen Big Data Markt strategisch kooperieren. Für IBM handelt es sich eher um eine weitere Partnerschaft. Cloudera hingegen könnte das weiter beflügeln. Werden die Hadoop Profis damit sogar zum Top-Influencer für Big Data?

Cloudera ist die wichtigste Kraft hinter dem Apache Hadoop Projekt und verfügt mit seiner “Cloudera Distribution including Apache Hadoop” (CDH) über die am meisten eingesetzte Hadoop Distribution weltweit.

Das Interessante an dieser Kooperation ist, das IBM bereits über eine eigene Hadoop Distribution verfügt. Warum also diese zusätzliche Partnerschaft. Der wahrscheinlichste Grund ist die aktuelle Marktsituation, in der Clouderas CDH dominiert. Der eigentliche Gewinner dieser Partnerschaft ist jedoch Cloudera, für die sich mit einem so starken Partner wie IBM viele weitere Türen öffnen werden und der Kundenstamm demnächst rasant ansteigen wird.


Bildquelle: Wired



Pinterest macht die Amazon Cloud für den eigenen Erfolg verantwortlich

Pinterest ist seit dem Start zu einem der Lieblinge im Internet geworden und hat ein beachtliches Wachstum zu verzeichnen. Ryan Park, Operations Engineer bei Pinterest, führt diesen Erfolg auf die Skalierbarkeit des Cloud Computing, genauer den Amazon Web Services zurück. Ohne Cloud Computing wäre der Erfolg von Pinterest nicht möglich gewesen, so Park kürzlich auf dem Amazon Web Services Summit in New York.

Pinterest ist eine Online Pinnwand. Es handelt sich dabei um einen Service der es erlaubt, Dinge zu sammeln und zu organisieren, die für jemanden von besonderem Interesse sind. Zudem können diese Dinge von anderen Nutzern auf der Pinnwand angeschaut werden.

Pinterest macht die Amazon Cloud für den eigenen Erfolg verantwortlich

Die Cloud hat es Pinterest ermöglicht, effizient zu arbeiten und kostengünstig zu experimentieren. Zudem konnte die Webseite sehr schnell wachsen, während sich nur ein sehr kleines Team um die Wartung kümmern musste. Im Dezember beschäftigte Pinterest insgesamt nur 12 Mitarbeiter. Laut der Rating Agentur ComScore konnte Pinterest im Monat März fast 18 Millionen Besucher gewinnen, eine 50-prozentige Steigerung gegenüber dem Vormonat. Die Webseite gehört demnach zu einer der am schnellsten wachsenden Webseiten in der Geschichte des Webs.

Pinterest setzt bei seinem Service auf Amazon S3 und Amazon EC2. Dabei ist die Nutzung von S3 seit dem letzten August um den Faktor 10 gestiegen. EC2 im selben Zeitraum um den Faktor 3. In Zahlen bedeutet das in etwa 80 Millionen Objekte die in Amazon S3 gespeichert sind, was ca. 410 Terabyte an Nutzerdaten entspricht.

Nach Park, wäre dies mit einem eigenen Rechenzentrum niemals möglich gewesen. Zunächst hätte das einen riesen Aufwand in Bezug auf die Kapazitätsplanungen bedeutet und die Hardware hätte noch bestellt und selbst installiert werden müssen. Zudem wäre Pinterest nicht in der Lage gewesen so schnell zu skalieren.

Aktuell nutzt Pinterest ca. 150 EC2 Instanzen, um damit die Kern Services bereitzustellen. Diese sind in Python geschrieben. Zudem setzt Pinterest auf das Django Framework. Der Traffic wird über die Instanzen mit Hilfe von Amazon ELB (Elastic Load Balancer) verteilt. Weitere 90 EC2 Instanten werden für das Caching eingesetzt und noch einmal 35 Instanzen für interne Zwecke.

Im Hintergrund der Anwendungen laufen etwa 70 Master-Datenbanken auf EC2 sowie eine Reihe von Backup-Datenbanken, die sich in verschiedenen Regionen auf der ganzen Welt befinden, um für die Redundanz zu sorgen.

Um seinen Nutzern Daten in Echtzeit zu liefern, sind die Datenbank-Tabellen über mehrere Server hinweg verteilt. Wenn ein Datenbankserver mehr als 50 Prozent Last fährt, wird die Hälfte des Inhalts auf einen anderen Server verschoben. Dieser Prozess wird auch als Sharding bezeichnet. Im vergangenen November nutzte Pinterest acht Master-Slave-Datenbank-Paare. Heute sind es schon 64 Paare.

Ein weiterer Vorteil, der Pinterest entgegenkommt, ist das pay-as-you-go Modell. Da Pinterest bei AWS nur für die Ressourcen bezahlt die sie benötigen, konnte Kapital gespart werden. Der meiste Datenverkehr entsteht in den USA während den Nachmittags-und Abendstunden. Mit Amazon Autoscaling fügt Pinterest in diesen Zeiträumen entsprechend mehr Instanzen hinzu, um die Anfragen zu bewältigen. In der Nacht werden die Instanzen dann wieder entfernt.

Mit diesem Ansatz ist Pinterest in der Lage, die Anzahl der Server die sie in der Nacht verwenden, um rund 40 Prozent zu reduzieren. Da Amazon pro Stunde abrechnet, führt diese Reduktion zu Kosteneinsparungen. Während der Lastspitzen, zahlt Pinterest etwa 52 US-Dollar pro Stunde für Amazon EC2. In den frühen Morgenstunden liegen die Kosten dann bei 15 US-Dollar pro Stunde.

Das pay-as-you-go Modell lässt Pinterest ebenfalls neue Services testen, ohne dafür langfristig in eigene Serverhardware- oder software zu investieren. Ein gelungenes Experiment war, laut Park, die Nutzung von Amazon Elastic Map Reduce, Amazons Hadoop-basierten Service für die Datenanalyse.

Fazit

Pinterest ist nur ein gutes Beispiel dafür, wie Cloud Computing dabei unterstützt neue Geschäftsmodelle mit einem minimalen Ressourcen- und Kapitalaufwand zu realisieren und im Erfolgsfall für die entsprechende Flexibilität und Skalierbarkeit zu sorgen.



Red Hat Storage 2.0 Beta steht bereit

Ab sofort steht eine Betaversion von Red Hat Storage 2.0 bereit. Die reine Softwarelösung bietet Funktionen zur Vereinheitlichung von Datenspeicherung und Infrastrukturen, eine höhere Performance, eine bessere Verfügbarkeit und eine einfachere Verwaltung großer Datenvolumen.

Red Hat Storage 2.0 Beta steht bereit

Red Hat Storage 2.0 ermöglicht eine Zusammenführung von File Storage und Object Storage und ist mit Apache Hadoop kompatibel. Diese Funktionalität sorgt für einen schnelleren Datenzugriff und sie öffnet Hadoop-Implementierungen für datei- oder objektbasierte-Applikationen.

Zum Funktionsumfang der Red Hat Storage 2.0 gehören ein einheitlicher Zugriff auf Dateien und Objekte innerhalb eines zentralen Storage Pools, eine Storage Infrastruktur speziell für Big Data mit einer Apache Hadoop Unterstützung, eine Performance Optimierung auf Basis von NFSv3, Integrationsmöglichkeiten mit der Red Hat Enterprise Virtualization, einen Network Lock Manager (NLM) sowie u.a. proaktive Funktionen zur Selbstheilung, um damit die Zuverlässigkeit zu erhöhen.

Weitere Infos gibt es im Red Hat Blog.



OpenStack – Ein Überblick

OpenStack ist ein weltweites Gemeinschaftsprojekt von Entwicklern und Cloud Computing Spezialisten, die das Ziel verfolgen eine Open Source Plattform für den Aufbau von Public und Private Clouds zu entwickeln. Das Projekt wurde initial von der Nasa und Rackspace gegründet und will Anbietern von Cloud Infrastrukturen ein Werkzeug in die Hand geben, mit dem sie unterschiedliche Arten von Clouds ohne großen Aufwand auf Standard Hardwarekomponenten aufbauen und bereitstellen können.

Die Kernbereiche von OpenStack

Die Kernbereiche von OpenStack

Der gesamte OpenStack Quellcode ist frei verfügbar und unterliegt der Apache 2.0 Lizenz. Dadurch ist jeder in der Lage auf dieser Basis seine eigene Cloud zu entwickeln und ebenfalls Verbesserungen in das Projekt zurückfließen zu lassen. Der Open Source Ansatz des Projekts soll zudem die Entwicklung von Standards im Bereich des Cloud Computing weiter fördern, Kunden die Angst vor einem Vendor Lock-in nehmen und ein Ecosystem für Cloud Anbieter schaffen.

OpenStack besteht aus insgesamt fünf Kernkompenten. Bei OpenStack Compute, OpenStack Object Storage und OpenStack Image Service handelt es sich um die grundlegenden Kernbereiche, die von Beginn an zu dem Projekt gehören. Mit OpenStack Identity und OpenStack Dashboard wurden in dem Diablo Release zwei weitere Komponenten hinzugefügt, die ab der kommenden Essex Version fest in die Kernbereiche mit aufgenommen werden.

OpenStack Compute

OpenStack Compute dient dem Aufbau, Bereitstellen und Verwalten von großen Virtual Machine Clustern, um auf dieser Basis eine redundante und skalierbare Cloud Computing Plattform zu errichten. Dazu stellt OpenStack Compute diverse Kontrollfunktionen und APIs zur Verfügung, mit denen Instanzen ausgeführt und Netzwerke verwaltet werden sowie die Zugriffe der Nutzer auf die Ressourcen gesteuert werden können. OpenStack Compute unterstützt zudem eine große Anzahl von Hardwarekonfigurationen und sieben Hypervisor.

OpenStack Compute kann bspw. Anbietern dabei helfen Infrastructure Cloud Services bereitzustellen oder IT-Abteilungen ermöglichen ihren internen Kunden und Projekten Ressourcen bei Bedarf zur Verfügung zu stellen. Zudem können große Datenmengen (Big Data) mit Tools wie Hadoop verarbeitet werden oder Web Anwendungen entsprechend ihrer Ressourcenbedürnisse bedient werden.

OpenStack Object Storage

Mit OpenStack Object Storage können auf Basis von standardisierten Servern redundante und skalierbare Object Storage Cluster mit einer Größe von bis zu 1 Petabyte aufgebaut werden. Dabei handelt es sich nicht um ein Dateisystem und ist nicht für das Speichern von Echtzeitdaten ausgelegt, sondern für das langfristige Speichern von statischen Daten gedacht, die bei Bedarf abgerufen oder aktualisiert werden können. Gute Anwendungsbeispiele für OpenStack Object Storage sind das Speichern von Virtual Machine Images, Photos, E-Mails, Backupdaten oder Archivierung. Da der Object Storage dezentral verwaltet wird, verfügt er über eine hohe Skalierbarkeit, Redundanz und Beständigkeit der Daten.

Die OpenStack Software sorgt dafür, dass die Daten auf mehrere Speicherbereiche im Rechenzentrum geschrieben werden, um damit die Datenreplikation und Integrität innerhalb des Clusters sicherzustellen. Die Storage Cluster skalieren dabei horizontal, indem weitere Knoten bei Bedarf hinzugefügt werden. Sollte ein Knoten ausfallen, sorgt OpenStack dafür, dass die Daten von einem aktive Knoten repliziert werden.

OpenStack Object Storage kann von Anbietern genutzt werden, um einen eigenen Cloud Storage bereizustellen oder die Server Images von OpenStack Compute zu speichern. Weitere Anwendungsfälle wären Dokumentenspeicher, eine Back-End Lösung für Microsoft SharePoint, eine Archivierungsplattform für Logdateien oder für Daten mit langen Aufbewahrungsfristen oder einfach nur zum Speichern von Bildern für Webseiten.

OpenStack Image Service

Der OpenStack Image Service hilft bei der Suche, Registrierung und dem Bereitstellen von virtuellen Maschinen Images. Dazu bietet der Image Service eine API mit einer Standard REST Schnittstelle, mit der Informationen über das VM Image abgefragt werden können, welches in unterschiedlichen Back-Ends abgelegt sein kann, darunter OpenStack Object Storage. Clients können über den Service neue VM Images registrieren, Informationen über öffentlich verfügbare Images abfragen und über eine Bibliothek ebenfalls darauf zugreifen.

Der OpenStack Image Service unterstützt eine Vielzahl an VM Formaten für private und öffentliche Images, darunter Raw, Machine (kernel/ramdisk, z.B. AMI), VHD (Hyper-V), VDI (VirtualBox), qcow2 (Qemu/KVM), VMDK (VMWare) und OVF (VMWare).

OpenStack Identity

Der OpenStack Identity Service stellt eine zentrale Authentifizierung über alle OpenStack Projekte bereit und integriert sich in vorhandene Authentifizierungs-Systeme.

OpenStack Dashboard

Das OpenStack Dashboard ermöglicht Administratoren und Anwendern den Zugang und die Bereitstellung von Cloud-basierten Ressourcen durch ein Self-Service Portal.