Tag: Big Data


Innovationen durch Daten: Eine Daten-Kernkompetenz ist wichtiger als ein neuer Chief AI Officer

Die aufkeimende Flut von IoT-Lösungen auf elektronischer Ebene bietet nicht nur die Möglichkeit mehrere Geräte miteinander zu vernetzen, sondern auch die Pflicht über die Datenströme der Lösungen entsprechend nachzudenken. Diese Auseinandersetzung mit den Daten sollte bereits im Vorfeld angestoßen werden und Teil der Lösung von Tag eins an sein. Die Herkunft der Daten sollte dabei zwar genauestens geprüft und protokolliert werden, jedoch ist die Quelle an sich nicht so relevant, wie der Wert der Daten selbst. Daher ist es möglich verschiedene Szenarien in Betracht zu ziehen, wenn man über die Erzeugung eines neuen Dienstes oder Produkts nachdenkt. Auf der einen Seite gibt es im Unternehmen bereits etliche Daten, die ggf. nur neu aufbereitet werden müssen. Dann wiederum gibt es Daten, die erst mit dem Produkt selbst und der Nutzung erzeugt werden. Und ferner gibt es noch Daten, die vielleicht nicht im eigenen Besitz liegen und auch nicht Kern des eigenen Geschäftsmodells sind, dennoch aber ein wichtiger Bestandteil des Produktes sein sollen. Diese Daten werden dann erworben oder zumindest die Nutzungsrechte (Lizenz) für diese.

Continue reading “Innovationen durch Daten: Eine Daten-Kernkompetenz ist wichtiger als ein neuer Chief AI Officer” »



Machine Learning in der Industrie

Machine Learning in der Industrie - Wie Verfahren der künstlichen Intelligenz zum elementaren Digitalisierungsbaustein der globalen Industriekonzerne werden

Mit der zunehmenden Digitalisierung steigt auch in der Industrie der wertschöpfende Anteil der IT. Mit dem Einzug des Internet der Dinge werden immer mehr Daten produziert, die gesammelt, analysiert und nutzbar gemacht werden wollen. Industrieunternehmen werden immer mehr zu IT- und Software-Unternehmen. Wer nicht mitmacht, wird abgehängt. Mit steigender Datenmenge und fortgeschrittener Automatisierung nehmen Machine Learning und Künstliche Intelligenz immer mehr Einzug in die Industrie. Continue reading “Machine Learning in der Industrie” »



Die Machine Learning Akquisitionen der Big Five – Smarte Produkte werden Standard

Nicht erst seit heute ist Machine Learning ein heißes Thema. Die Anwendungsmöglichkeiten sind vielfältig und reichen von der Bilderkennung über Predictive Analytics bis hin zu Computer Vision. Im Zeitraum von 2015 bis Mitte 2016 gab es über 120 Akquisitionen im Bereich Machine Learning. Crisp Research hat mal genauer hingeschaut und beleuchtet in diesem Analyst View vergangene und aktuelle Trends. Continue reading “Die Machine Learning Akquisitionen der Big Five – Smarte Produkte werden Standard” »



Big Data in Bio-Science – Was Crispr für die IT-Welt bedeutet

Crispr steht in diesem Fall nicht für Crisp Research, sondern für „Clustered Regularly Interspaced Short Palindromic Repeats“, was wiederum der Fachbegriff für sich wiederholende DNA-Abschnitte ist. Die durch die beiden Forscherinnen Emmanuelle Charpentier und Jennifer Doudna in 2012 vorgestellte Crispr-CAS-Methode ist innerhalb kürzester Zeit eine der weltweit wichtigsten Innovationen zur Veränderung von Erbgut geworden. Das Verfahren liefert eine simple, effiziente und kostengünstige Möglichkeit zur Durchführung von gezielten Genveränderungen. Continue reading “Big Data in Bio-Science – Was Crispr für die IT-Welt bedeutet” »



Öffentliche Datensätze – Warum freie Daten wichtig für die digitale Entwicklung sind

Öffentlich verfügbare Datensätze sind eine Rarität. Nun, sie waren es zumindest für eine sehr lange Zeit. Oftmals suchte ich nach passenden Daten für die Vorlesung, um den Studenten den Sinn und die Bedeutung von Cloud, Machine Learning und Big Data besser vermitteln zu können. Doch lange Zeit war nicht viel zu holen, außer in den Datensätzen aus den USA. Dies hat sich geändert und zwar sehr drastisch. Dadurch brach eine Innovationswelle aus, welche bis heute am Beschleunigen ist. Continue reading “Öffentliche Datensätze – Warum freie Daten wichtig für die digitale Entwicklung sind” »



Künstliche Intelligenz und echte Profite – Machine Learning auf dem Weg in den Mainstream

Lange waren Machine Learning-Verfahren nur etwas für echte Geeks und verrückte Statistik-Wissenschaftler. Doch seit zwei Jahren hat sich das Blatt gewendet und Künstliche Intelligenz ist das Top-Thema der digitalen Elite und der Venture Capitalists im Silicon Valley. Was ist der Grund für das Comeback? Und welchen Einfluss wird das Thema Machine Learning für die IT- und Digitalisierungsstrategien der Unternehmen in den kommenden 2-5 Jahren haben?

Continue reading “Künstliche Intelligenz und echte Profite – Machine Learning auf dem Weg in den Mainstream” »



Hybride Hadoop Strategien – Big Data macht den Spagat

Das Thema Big Data hat in den letzten Jahren viele Entscheider massiv getrieben. Cloudera, Hortonworks, MapR & Co. zogen in die Rechenzentren vieler deutscher Unternehmen ein und befüllen die Datalakes der Unternehmen. Parallel dazu werden immer mehr Cloud-Infrastrukturen genutzt, um neue Dienste zur erstellen und so entstehen auch in der Cloud zum Teil Datalakes. Die Frage ist, wie man effektiv und sinnvoll diese hybriden Welten verbinden kann und welche Einsatzszenarien einen Mehrwert und nicht nur mehr Aufwand bringen.

Continue reading “Hybride Hadoop Strategien – Big Data macht den Spagat” »



Machine Learning aus der Cloud – Was halten die Versprechen?

Ob Predictive Analytics, die Informationsgewinnung aus neuen BigData-Quellen oder das Durchsuchen alter Bestandsdaten, überall werden Machine Learing-Algorithmen eingesetzt. Dass Verfahren aus dem Bereich des Machine Learning immer mehr an Bedeutung gewinnen, zeigt u.a. die aktuelle Ankündigung von Nvidia.

Continue reading “Machine Learning aus der Cloud – Was halten die Versprechen?” »



Krieg in der IoT-Kommunikation – Telekommunikationsprovider aus dem Spiel?

Internet of Things (IoT) braucht Kommunikation. Ohne ein entsprechend effizientes Kommunikationsmedium bleiben Dinge eben einfach nur Dinge. Sicherlich haben Sie weiterhin die Möglichkeit ihre bisherigen Aufgaben zu erfüllen, jedoch ohne eine Vernetzung mit anderen Dingen. Daher stellt sich die Frage auf welche Art und Weise die Kommunikation der vielen, vielen Dinge in Zukunft sichergestellt werden kann. Welcher Standard wird sich etablieren? Apple stelle mit dem HomeKit auf der WWDC (Worldwide Developer Conference) im Juni 2014 keine revolutionäre neue Technologie vor, sondern vielmehr eine Art und Weise, viele unterschiedliche Technologien zu vereinen, um eine einheitliche Zugriffsmöglichkeit auf seine SmartHome Geräte zu haben. Dies zeigt bereits, dass es momentan viele unterschiedliche Anbieter mit den unterschiedlichsten Produkten, Protokollen, Netzwerken und Schnittstellen gibt. Bei der Kommunikation scheint es besonders verschwommen zu sein.

Continue reading “Krieg in der IoT-Kommunikation – Telekommunikationsprovider aus dem Spiel?” »



Crisp Vendor Universe: Alle relevanten IoT-Backend-Anbieter für den deutschen Markt auf einem Blick

Mit dem Internet of Things (IoT) hat der nächste Megatrend Deutschland erreicht. Nach Cloud, Big Data, Mobile und Social ist die Agenda deutscher CIOs und CTOs nun um ein weiteres Thema reicher geworden. Nicht nur in den Medien und auf Konferenzen geht es um die Vernetzung von Menschen, Haushaltsgeräten, Autos und Industrieanlagen. Als Teil ihrer Digitalisierungsstrategie planen immer mehr Unternehmen die Entwicklung IoT-basierter Produkte und Lösungen, um ihre Prozesse zu optimieren und neue datenbasierte Geschäftsmodelle zu erschließen. Continue reading “Crisp Vendor Universe: Alle relevanten IoT-Backend-Anbieter für den deutschen Markt auf einem Blick” »



Nationaler IT Gipfel 2015 – Chancen und Verantwortung in der Digitalisierung

Die 9. Auflage des Nationalen IT Gipfels brachte auch in diesem Jahr die Top-Entscheider aus Politik und Wirtschaft zusammen, um die Wachstums- und Innovationspotenziale der IT-Branche in Deutschland zu diskutieren. Neben Kanzlerin Angela Merkel und Wirtschaftsminister Sigmar Gabriel, waren eine Reihe an Vertretern aus den Bundesministerien und Fraktionen sowie die Konzernlenker der in Deutschland ansässigen ITK-Unternehmen zu Gast. Continue reading “Nationaler IT Gipfel 2015 – Chancen und Verantwortung in der Digitalisierung” »



Heisenberg und Big Data – Oder erkenntnistheoretische Betrachtungen zu Big Data

Zu Beginn ein kurzer Exkurs in die Physik der letzten Jahrhunderte:

Zum Ende des 18.ten Jahrhunderts waren einige Wissenschaftler berauscht vom wissenschaftlichen Fortschritt der Meinung, sie könnten alle Probleme dieser Welt lösen. Pierre Laplace, ein frz. Mathematiker, der sich durch die Vervollständigung der newtonschen Himmelsmechanik, der Wahrscheinlichkeit- und Spieltheorie verdient gemacht hat und ein konsequenter Vertreter des sog. Determinismus war, vertrat z.B. gegenüber Napoleon die Ansicht, dass man nur genügend Gleichungen aufstellen müsse, um alle Probleme der Welt hinreichend beschreiben und lösen zu können. Da Laplace keine Rechenmaschinen zur Verfügung hatte, brauchte er den Beweis seiner Behauptung nicht antreten, was ihm nach heutiger Kenntnis und dem Vorhandensein enormer Rechenleistungen auch nicht gelungen wäre. Continue reading “Heisenberg und Big Data – Oder erkenntnistheoretische Betrachtungen zu Big Data” »



Vertrauen ist gut, Kontrolle ist besser! Die neue Generation von Analytics-, Visualisierungs- und Monitoring-Tools ist da

Daten sind das neue Gold - wird gerne proklamiert. Doch große Datenmengen stellen nicht nur IT-Infrastrukturen, sondern vor allem den Mensch als Entscheider vor große Probleme. Nur wenn sich die Datenlawine aus Sensoren, Applikationen und IT-Systemen ohne große Probleme analysieren und visualisieren lässt, können Daten Mehrwert generieren und für bessere Entscheidungen sorgen. Eine neue Generation von Tools und Services steht dafür bereit. Continue reading “Vertrauen ist gut, Kontrolle ist besser! Die neue Generation von Analytics-, Visualisierungs- und Monitoring-Tools ist da” »



Neuer BITKOM Big Data-Leitfaden mit über 40 Praxisbeispielen veröffentlicht

Der BITKOM Branchenverband hat den neuen Big Data-Leitfaden für Fach- und Führungskräfte veröffentlicht. Der Fokus liegt hierbei auf 40 Praxisbeispielen zum Thema "Big Data und Geschäftsmodell-Innovationen". So werden überzeugende Hinweise dafür geliefert, wie der Einsatz von Big Data bei Anwendern Möglichkeiten für Geschäftsmodell-Innovationen eröffnet. Entscheider aus dem Mittelstand können aus den Praxisbeispielen Impulse und Anregungen erhalten, in ihren Unternehmen das innovative Potenzial von Big Data zu heben. Continue reading “Neuer BITKOM Big Data-Leitfaden mit über 40 Praxisbeispielen veröffentlicht” »



Datability – Mehr als ein Cebit-Motto

Wer hätte es gedacht! Datability - ein neuer Technologie-Trendbegriff. Und das „Made in Germany“. So viel Kreativität hat man den Cebit-Machern gar nicht mehr zugetraut. Nach Jahren abnehmender Besucherzahlen und dem Rückzug einiger großer Anbieter. Aber das Thema „Datability“ und dessen mediale Resonanz schon weit vor der Cebit zeigen, dass Deutschland als IT- und Innovationsstandort wieder gefragt ist und substanziell zu den Entwicklungen in den neuen Wachstumsbereichen Big Data, Analytics & Cloud beiträgt. Continue reading “Datability – Mehr als ein Cebit-Motto” »



Disruptive Welt der IT: Neue Technologien verändern ständig den Status quo der Unternehmen #tsy13

Zero Distance klingt im ersten Moment wie eine dieser neumodischen Marketingphrasen, mit denen uns Anbieter tagtäglich erzählen, wie sie die Welt verbessern wollen. Nun, es handelt sich dabei auch um genau eine von diesen Marketingphrasen. Aber eine, in der viel Wahrheit steckt. Betrachtet man die Use Cases, die auf dem T-Systems Symposium 2013 gezeigt wurden und viele weitere weltweit, dann wird deutlich, was für Potentiale uns die moderne Informationstechnologie ermöglicht. Die Cloud bzw. Cloud Computing sind dabei nur ein Mittel zum Zweck und dienen als Enabler für neue Geschäftsmodelle und helfen bei der Veränderung unserer Welt.

Wer nicht handelt der stirbt aus!

Fakt ist, dass traditionelle Unternehmen dem Untergang geweiht sind, wenn sie sich nicht verändern. An alten Werten festzuhalten ist nicht immer die beste Strategie – insbesondere im Zeitalter des Digital Business. Startups tauchen wie aus dem nichts auf und überrennen Marktführer in ihrem Bereich, die gar keine Chance haben so schnell zu reagieren. Es ist der Vorteil der grünen Wiese, den die Startups ausnutzen und sich nicht mit lästigen Altlasten in der IT und anderweitigen Bereichen auseinandersetzen müssen. Aber es gibt auch die Unternehmen, die schon eine geraume Zeit erfolgreich auf dem Markt verweilen und die Zeichen der Zeit erkannt haben. Neue Technologien und Konzepte haben immer irgendeinen Einfluss auf das Business. Einige Unternehmen haben es verstanden sich neu zu erfinden und Cloud Computing, Big Data, Mobile und Collaboration gewinnbringend für die eigene Zwecke zu nutzen, um sich dadurch zu verändern. Andere hingegen können oder wollen es nicht verstehen und bleiben lieber ihrem Status quo treu.

Hey Bauer, wo bleibt der Bulle?

Es ist immer wieder erstaunlich in welchen Bereichen der Industrie die Informationstechnologie einen massiven Einfluss nimmt und dabei für mehr Effizienz sorgt. Nehmen wir das Beispiel der Landwirtschaft. Konkreter das Paarungsverhalten der Kühe. Das ist wichtig, denn eine Kuh gibt nur dann Milch, wenn sie gekalbt hat. Es ist für den Bauer daher von besonderem Interesse, das hier alles reibungslos abläuft.

Die Lösung: Ist eine Kuh brünstig, macht sie währenddessen typische Kopfbewegungen. Daher bekommt jede Kuh ein Halsband inkl. einem Mobilfunkchip. Der Bauer erhält darüber die Information, dass er den Bullen startklar machen kann. Auch beim Kalben hilft die Lösung. Dazu überträgt das Tool die Werte eines Thermometers mit integrierter SIM Karte. Etwa 48 Stunden vor der Geburt verändert sich die Körpertemperatur der Kuh. Der Bauer erhält zwei Stunden vor der Geburt eine SMS, um rechtzeitig vor Ort zu sein.

IT-Abteilungen müssen proaktiver werden

IT-Abteilungen sind und waren schon immer die Prügelknaben im Unternehmen. Zu recht? Nun, einige ja, andere wiederum nicht. Aber sind es die IT-Abteilungen alleine, die für die Transformation des Business zuständig sind? Jein. In erster Linie ist die Geschäftsführung für die Ausrichtung der Unternehmensstrategie verantwortlich. Sie muss sagen, welchen Weg das Unternehmen gehen soll, schließlich hat sie die Visionen. Das große Aber besteht allerdings in der Art wie die IT-Abteilung sich in diesem Kontext verhält. Ist sie einfach nur die unterstützende Kraft, die je nach Bedarf auf die Wünsche der Geschäftsführung und der Kollegen reagiert oder agiert sie lieber proaktiv?

Angriff ist die beste Verteidigung. IT-Abteilungen sollten heute am technischen und innovativen Puls der Zeit sitzen und über die Veränderungen im Markt informiert sein. Über eine ständige interne oder externe Markt- und Trendforschung müssen sie wissen, was auf sie und ggf. auf ihr Unternehmen zukommt und darauf schnellstmöglich und proaktiv reagieren, um nicht zu viel Zeit zu verlieren und im besten Fall einen Wettbewerbsvorteil zu schaffen. Je nach Trend müssen sie nicht auf jeden Zug aufspringen, aber sie sollten sich damit zumindest auseinandersetzen und verstanden haben, welcher Einfluss dadurch entsteht und ob sie oder ihr Unternehmen davon betroffen sind. Wenn sie Potential für neue Geschäftsmodelle erkennen, sollten sie diese in die Geschäftsführung tragen, die auch verstehen muss, dass IT heute Enabler und nicht nur Instandhalter ist. Das bedeutet, dass die IT-Abteilung im Unternehmen heute einen viel größeren Stellenwert hat als noch vor zehn Jahren.

Hierzu muss die Geschäftsführung der IT-Abteilung jedoch unter die Arme greifen und die IT-Abteilung von ihren Routineaufgaben befreien. In etwa 80 Prozent der IT-Ausgaben werden heute in den IT-Betrieb investiert und das nur, um die Dinge am Laufen zu erhalten. Es handelt sich also um Investitionen in den Status quo, die zu keinen Innovationen führen. Hingegen werden lediglich nur 20 Prozent der Ausgaben in Verbesserungen oder Weiterentwicklungen investiert. Dieses Verhältnis muss sich drehen, und die Geschäftsführung zusammen mit dem CIO haben die Aufgabe, diesen Wandel vorzunehmen, damit ein Unternehmen auch in Zukunft innovativ und wettbewerbsfähig bleibt.

Hören Sie auf den Status quo zu umarmen.



Big Data und Cloud Computing helfen nicht nur Obama

In meinem Gastbeitrag bei den Automatisierungs-Experten von arago bin ich vor zwei Wochen auf das Thema Big Data eingegangen und das Unternehmen aus dem US-Wahlkampf 2012 von Barack Obama lernen sollten, wie sie Echtzeit-Informationen in einen Vorsprung umwandeln. Neben Cloud Computing, Mobile und Social Media gehört Big Data zu den aktuellen Top-Themen im IT-Unternehmensumfeld. Dabei handelt es sich bei weitem nicht mehr nur um einen Trend sondern um die Realität. Und das mit einem weitreichenden Einfluss auf Unternehmen, ihre strategische Ausrichtung und der IT. Bekannte Technologien und Methoden haben mit der Analyse von Big Data ihre Grenzen erreicht und nur das Unternehmen, welches es schafft, aus den Datensilos einen Informationsvorsprung zu erzielen, wird dem Wettbewerb in Zukunft einen Schritt voraus sein.

Big Data: Kein Alter Wein in Schläuchen

Grundsätzlich ist die Idee hinter Big Data nichts Neues. Von Anfang bis Mitte der 1990er Jahre ging es bereits unter dem Begriff „Business Intelligence“ darum, anhand von Verfahren eine systematische Analysen von Daten vorzunehmen. Die Ergebnisse werden dazu verwendet, um neue Erkenntnisse zu gewinnen, die dabei helfen, die Ziele eines Unternehmens besser zu erreichen und strategische Entscheidungen zu treffen. Allerdings war die Datenbasis, die es zu analysieren galt, deutlich kleiner als heute und lies nur Analysen auf Daten aus der Vergangenheit zu, was zu unsicheren Prognosen für die Zukunft führte. Heute sammeln sämtliche Alltagsgegenstände jede Sekunde massive Datenmengen an Informationen. Dazu gehören Smartphones, Tablets, Autos, Stromzähler oder auch Kameras. Hinzu kommen Bereiche, die sich nicht in der unmittelbaren Umgebung eines Menschen befinden, wie vollautomatisierte Produktionslinien, Distributionslager, Messinstrumente, Flugzeuge und anderen Fortbewegungsmitteln. Und natürlich sind es wir Menschen, die Big Data mit unseren Verhalten im Internet nähren. Tweets auf Twitter, Kommentare auf Facebook, Suchanfragen mit Google, Stöbern mit Amazon und sogar die Vitalwerte während einer Jogging-Session liefern modernen Unternehmen heute unmengen an Daten, aus denen sich wiederum wertvolle Informationen gewinnen lassen.

Strukturierte und unstrukturierte Daten

Große Datensätze sind keine neue Erscheinung. Bereits seit Jahrzenten sammeln Handelsketten, Ölfirmen, Versicherungen oder Banken massiv Informationen über Warenbestände, Bohrdaten und Transaktionen. Weiterhin gehören Projekte zur Parallelverarbeitung großer Datenmengen, Data-Mining-Grids, verteilte Dateisysteme und verteilte Datenbanken zu den typischen Bereichen von dem, was heute als Big Data bezeichnet wird. Dazu zählen die Biotech-Branche, Projekte aus der interdisziplinären wissenschaftlichen Forschung, die Wettervorhersage und die Medizinbranche. Alle genannten Bereiche und Branchen haben mit dem Management und der Verarbeitung großer Datenmengen zu kämpfen.

Doch nun wirkt sich die Problematik auch auf die "normalen" Branchen aus. Die heutigen Herausforderungen bestehen darin, dass Daten aus vielen unterschiedlichen Quellen stammen und zum Teil schnell, unverhersagbar und damit unstrukturiert aufkommen. Big Data soll daher insbesondere an den Stellen helfen, wo viele unterschiedliche Datenquellen miteinander kombiniert werden. Beispiele sind Tweets auf Twitter, das Surfverhalten oder Informationen über Abverkäufe, um auf dieser Basis neue Produkte und Dienstleistungen zu entwickeln. Im Finanzsektor führen immer neue Regulierungen zu höheren Datenmengen und Forderungen nach besseren Analysen. Darüber hinaus sammeln Web-Portale wie Google, Yahoo und Facebook täglich eine enorme Menge an Daten die zudem noch mit den Nutzern verknüpft werden, um zu verstehen, wie der Nutzer sich auf den Seiten bewegt und verhält. Big Data wird zu einem allgemeinem Problem. Laut Gartner könnten die Unternehmensdaten in den nächsten fünf Jahren um bis zu 650% weiter wachsen. 80% davon werden unstrukturierte Daten beziehungsweise Big Data sein, die bereits gezeigt haben, dass sie schwer zu verwalten sind. Zudem schätzt IDC, das ein durchschnittliches Unternehmen 50-mal mehr Informationen bis zum Jahr 2020 verwalten muss, während die Anzahl der IT-Mitarbeiter nur um 1,5% steigen wird. Eine Herausforderung, auf die Unternehmen auf eine effiziente Weise reagieren müssen wenn sie wettbewerbsfähig bleiben wollen.

Warum Unternehmen sich für Big Data entscheiden

Doch wo kommen diese riesigen Datenmengen tatsächlich her und welche Motivation haben Unternehmen, sich mit der Thematik zu beschäftigen. Die Marktforscher der Experton Group haben versucht, die Fragen in Ihrer "Big Data 2012 – 2015" Client-Studie im Oktober 2012 zu klären. Demnach ist der wichtigste Treiber für den Einsatz von Big Data Technologien und Konzepten das rasante Datenwachstum inklusive dem dazugehörigen Qualitätsmanagement und der Automatisierung der Analysen und Reports. Die Themen Kundenbindung und Marketing nehmen circa ein Drittel der Unternehmen zum Anlass, um die Anaysen ihrer Datenbestände zu erneuern. Neue Datenbanktechnologien nennen 27 Prozent der Befragten Unternehmen als Motivation für neue Verfahren zur Datenalyse. Weiterhin zählen nahezu alle Eigenschaften von Big Data zu den Gründen für die Erweiterung des strategischen Datenmanagements. Das zeigt, dass Big Data bereits Realität ist, auch wenn es in vielen Fällen nicht unter diesem Begriff bekannt ist. Die Big Data Treiber selbst sind über alle Branchen und Unternehmensgrößen hinweg gleich. Der einzige Unterschied besteht in der Bedeutung und Intensität. Ein großer Unterschied bei der Unternehmensgröße besteht in der Verteilung der Daten und Informationen an die richtigen Mitarbeiter im Unternehmen. Hier sehen große Unternehmen ihre größten Herausforderungen. Wohingegen kleinere Unternehmen das Thema als sehr unkritisch einstufen.

Big Data: Ein Anwendungsfall für die Cloud

Die Öl-und Gasindustrie hat die Verarbeitung großer Datenmengen durch den Einsatz von traditionellen Storage-Lösungen (SAN und NAS) gelöst. Forschungsorientierte Organisationen oder Unternehmen wie Google, die mit der Analyse von Massendaten zu tun haben, neigen eher dazu den Grid Ansatz zu verfolgen, um die nicht benötigten Ressourcen in die Software-Entwicklung zu investieren.

Big Data Verarbeitung gehört in die Cloud

Cloud Infrastrukturen helfen bei der Kostenreduzierung für die IT-Infrastruktur. Dadurch werden Unternehmen in die Lage versetzt, sich effizienter auf ihr Kerngeschäft zu konzentrieren und erhalten mehr Flexibilität und Agilität für den Einsatz neuer Lösungen. Damit wird ein Grundstein gelegt, sich auf die ständig verändernden Datenmengen einzustellen und für die notwendige Skalierbarkeit zu sorgen. Cloud Computing Anbieter sind in der Lage auf Basis von Investitionen in ihre Infrastruktur, Big Data taugliche und freundliche Umgebungen zu entwickeln und diese zu warten, wohingegen ein einzelnes Unternehmen dafür nicht die geeigneten Ressourcen für die Skalierbarkeit bereitstellen kann und ebenfalls nicht über die notwendige Expertise verfügt.

Cloud Ressourcen wachsen mit der Datenmenge

Cloud Computing Infrastrukturen sind darauf ausgelegt, dass sie mit den jeweiligen Anforderungen und Bedürfnissen mitwachsen oder sich reduzieren lassen. Unternehmen können die hohen Anforderungen – wie Hohe Rechenleistung, viel Speicherplatz, hohes I/O, performante Datenbanken usw. – die von Big Data erwartet werden, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.

Cloud Konzepte wie Infrastructure-as-a-Service (IaaS), vereinen beide Welten und nehmen dadurch eine einzigartige Position ein. Für diejenigen, die das SAN/NAS Konzept verstehen, werden die Ressourcen ebenfalls nutzen können, um massiv-parallele Systeme zu entwerfen. Für Unternehmen denen es schwer fällt sich mit den genannten Technologien auseinanderzusetzen oder diese zu verstehen, bieten IaaS Anbieter entsprechende Lösungen, um die Komplexität der Speichertechnologien zu umgehen und sich auf die Herausforderungen des Unternehmens zu konzentrieren.

Eine passable Lösung kommt von Cloud Computing Pionier Amazon Web Services. Mit der AWS Data Pipeline steht bei Amazon ein Service (noch in der Betaphase) bereit, mit dem sich Daten automatisch zwischen verschiedenen Systemen verschieben und verarbeiten lassen. Die Systeme können sich dazu entweder direkt in der Amazon Cloud oder auf einem anderen System außerhalb befinden. Amazon macht damit die Handhabung der wachsenden Datenmengen auf verteilten System mit unterschiedlichen Formaten einfacher. Dazu lassen sich beliebig viele Pipelines erstellen, in denen die unterschiedlichen Datenquellen, Bedingungen, Ziele, Anweisungen und Zeitpläne definiert sind. Kurzum geht es darum, welche Daten von welchem System auf Basis welcher Bedingungen geladen, verarbeitet und die Ergebnisse anschließend wieder gespeichert werden. Die Pipelines selbst werden je nach Bedarf stündlich, täglich oder wöchentlich gestartet. Die Verarbeitung kann entweder direkt in der Amazon Cloud oder auf den Systemen im unternehmenseigenen Rechenezentrum stattfinden.

Big Data = Big Opportunities?

Nicht nur das Obama Beispiel zeigt, wie gewinnbringend die Verknüpfung von strukturierten und unstrukturierten Daten aus mobilen Endgeräten, Social Media Kanälen, der Cloud und vielen weiteren unterschiedlichen Quellen für ein Unternehmen sein kann. Allerdings muss man sich bei Big Data über eines im Klaren sein. Es geht letztendlich nicht um die Masse der Daten die gesammelt wird, sondern um deren Qualität und wofür die Daten letztendlich überhaupt genutzt werden sollen.

Entscheidend ist daher, ob und wie ein Unternehmen es schafft, aus den Massen an Daten, die durch menschliche und maschinelle Interaktionen entstehen, die qualitativ hochwertigsten Informationen zu analysieren und sich damit eine führende Position am Markt sichert. Qualifizierte Daten sind das neue Öl und werden in den Unternehmen, die den eigenen Vorteil darin erkennen, für den gewinnbringenden Antrieb sorgen.



Big Data in der Cloud: AWS Data Pipeline und Amazon Redshift

Amazon rüstet seine Cloud-Infrastruktur für Big Data mächtig auf. Mit der AWS Data Pipeline steht nun ein Dienst (zur Zeit in der Betaphase) zur Verfügung, mit sich Daten über verschiedene Systeme automatisch verschieben und verarbeiten lassen. Amazon Redshift stellt ein Datawarehouse in der Cloud dar, welches zehnmal schneller sein soll als bisher verfügbare Lösungen.

AWS Data Pipeline

Mit der AWS Data Pipeline sollen die stetig wachsenden Daten, welche auf verschiedenen Systemen und in unterschiedlichen Formaten vorhanden sind, einfacher zugänglich gemacht werden. Der Service lädt zum Beispiel Textdateien von Amazon EC2, verarbeitet sie und speichert diese in Amazon S3. Dreh und Angelpunkt ist dabei die AWS Management Console. Hier werden Pipelines definiert, die aus unterschiedlichen Quellen, Bedingungen, Zielen und Anweisungen bestehen. Über Zeitpläne wird festgelegt, wann welcher Job ausgeführt wird. Die AWS Data Pipeline legt fest, von welchem System welche Daten auf Basis von bestimmten Bedingungen geladen werden, unter welchen Bedingungen sie zu verarbeiten sind und wo diese am Ende gespeichert werden.

Die Verarbeitung der Daten kann entweder direkt in der Amazon Cloud auf EC2-Instanzen oder im eigenen Rechenzentrum durchgeführt werden. Dafür steht mit dem Task Runner ein Open-Source Tool bereit, dass mit der AWS Data Pipeline kommuniziert. Der Task Runner muss dafür auf den jeweiligen datenverarbeitenden Systemen gestartet sein.

Amazon Redshift

Amazons Cloud-Datawarehouse Amazon Redshift soll dabei helfen, große Datenmengen innerhalb kürzester Zeit zu analysieren. Darin lassen sich bis zu 1,6 Petabyte Daten speichern und per SQL abfragen. Zwar wird der Service, wie üblich, nach Verbrauch abgerechnet. Kunden, die allerdings einen Dreijahresvertrag unterschreiben und volle Last auf ihre virtuelle Infrastruktur bringen, zahlen ab 1.000 US-Dollar pro Terabyte pro Jahr. Amazon stellt dazu einen Vergleich mit Zahlen von IBM an. IBM berechnet für ein Datawarehouse zwischen 19.000 US-Dollar und 25.000 US-Dollar pro Terabyte pro Jahr,
Erste Beta-Tester von Amazon Redshift sind Netflix, JPL und Flipboard, deren Abfragen 10- bis 150-mal schneller waren als auf dem derzeit genutzten System.

Amazon Redshift kann als Single-Node-Cluster mit einem Server und maximal 2 TByte Speicherplatz oder als Multi-Node-Cluster, der aus mindestens zwei Compute-Nodes und einem Leader-Node besteht, genutzt werden. Der Leader-Node ist dabei für die Verwaltung der Verbindungen, das Parsen der Anfragen, das Erzeugen der Ausführungspläne und der Verwaltung der Anfragen auf den einzelnen Compute-Nodes zuständig. Die Berechnung findet auf den Compute-Nodes statt. Die Compute-Nodes stehen als hs1.xlarge mit 2 TByte Speicherkapazität und hs1.8xlarge mit 16 TByte Speicherkapazität zu Verfügung. Ein Cluster darf dabei maximal aus 32 hs1.xlarge und 100 hs1.8xlarge Compute-Nodes bestehen. Das ergibt eine maximale Speicherkapazität von 64 Terabyte beziehungsweise 1,6 Petabyte. Die Compute-Nodes sind über ein separates 10 Gigabit/s Backbone miteinander verbunden.

Kommentar

Amazon baut ungeachtet vom Mitbewerb sein Cloud Services Portfolio weiter aus. Dadurch kann man manchmal den Eindruck bekommen, dass alle anderen IaaS-Anbieter auf der Stelle treten - angesichts der Innovationskraft der Amazon Web Services. Ich kann es an dieser Stelle nur noch einmal betonen, Mehrwert-Services sind die Zukunft von Infrastructure-as-a-Service bzw. Wer als IaaS-Anbieter zu Amazon konkurrenzfähig sein will muss mehr als nur Infrastruktur im Portfolio haben.

Schauen wir uns die aktuellen Entwicklungen an, steigt der Bedarf an Lösungen für die Verarbeitung großer strukturierter und unstrukturierter Datenmengen stetig an. Barack Obamas Wahlkampf ist dafür nur ein Use Case, der zeigt, wie wichtig der Besitz qualitativ hochwertiger Informationen ist, um sich für die Zukunft Wettbewerbsvorteile zu verschaffen. Und auch wenn viele in den Amazon Web Services "nur" einen reinen Infrastructure-as-a-Services Anbieter sehen (ich tue das nicht), wird Amazon - mehr als jeder andere (IaaS)-Anbieter - im Kampf um Big Data Lösungen weit oben mitspielen - was letztendlich nicht nur an dem Wissen auf Grund des Betriebs von Amazon.com liegt.



Cloud Computing und Big Data – Der ideale Use Case

Ich hatte schon einmal im März die Frage gestellt, ob Infrastructure-as-a-Service (IaaS) die ideale Lösung für die Herausforderungen von Big Data ist. Bereits damals bin ich zu dem Ergebnis gekommen, dass die Verarbeitung und Analyse großer Datenmengen - kurz: Big Data - ein idealer Use Case für das Cloud Computing ist. Unternehmen können die hohen Anforderungen, die Big Data erwartet, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.

Was ist Big Data

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes, Exabytes und Zettabytes.

Quelle: Wikipedia.de

Beispiele für Big Data

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind:

  • zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
  • bessere, schnellere Marktforschung
  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
  • Einführung und Optimierung einer intelligenten Energieverbrauchssteuerung (Smart Metering)
  • Erkennen von Interdependenzen in der medizinischen Behandlung
  • Realtime-Cross- und Upselling im E-Commerce und stationären Vertrieb
  • Aufbau flexibler Billingsysteme in der Telekommunikation

Quelle: Wikipedia.de

Herausforderungen von Big Data

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen:

  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • schneller Import großer Datenmengen
  • sofortige Abfrage importierter Daten (Realtime-Processing)
  • kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der in der Open-Source-Software (Apache Hadoop und MongoDb), sowie in einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt.

Quelle: Wikipedia.de

Cloud Computing und Big Data: Der perfekte Use Case

Unsere Datenmengen steigen exponentiell. Die parallele Nutzung von Dienstleistungen wie HDTV, Radio, Video on Demand (VOD) und Security as a Service haben immer höhere Anforderungen an Netzwerk-Infrastrukturen. Die Nutzungen von Anwendungen wie Videokonferenzen und neue Kommunikationswege wie Social Media verändern sich ständig, was ebenfalls Einfluss auf die tägliche Nutzung und den Zugriff auf Daten durch Unternehmen hat. Um mit diesen wachsenden Datenmengen umzugehen, wird verstärkt auf externe Rechenzentrumsfunktionen- und kapazitäten zurückgegriffen. Welche Daten dabei wie ausgelagert werden sollten stellen die größten Herausforderungen dar.

Ein allgemeines Problem

Traditionell gehören Projekte zur Parallelverarbeitung großer Datenmengen, Data-Mining-Grids, verteilte Dateisysteme und verteilte Datenbanken zu den typischen Nutzern von Big Data. Dazu zählen die Biotech-Branche, Projekte aus der interdisziplinären wissenschaftlichen Forschung, Wettervorhersage, Regierungen und die Medizinbranche. Alle genannten Bereiche haben seit Jahren mit dem Management und der Verarbeitung großer Datenmengen zu kämpfen. Doch nun wirkt sich die Problematik auch auf weitere “normale” Branchen aus.

Im Finanzsektor führen immer neue Regulierungen zu höheren Datenmengen und Forderungen nach besseren Analysen. Darüber hinaus sammeln Web-Portale wie Google, Yahoo und Facebook täglich eine enorme Menge an Daten die zudem noch mit den Nutzern verknüpft werden, um zu verstehen, wie der Nutzer sich auf den Seiten bewegt und verhält.

Big Data wird zu einem allgemeinem Problem. Laut Gartner könnten die Unternehmensdaten in den nächsten fünf Jahren um bis zu 650% weiter wachsen. 80% davon werden unstrukturierte Daten bzw. Big Data sein, die bereits gezeigt haben, dass sie schwer zu verwalten sind.

Zudem schätzt IDC, das ein durchschnittliches Unternehmen 50-mal mehr Informationen bis zum Jahr 2020 verwalten muss, während die Anzahl der IT-Mitarbeiter nur um 1,5% steigen wird. Eine Herausforderung, auf die Unternehmen auf eine effiziente Weise reagieren müssen wenn sie wettbewerbsfähig bleiben wollen.

Wettbewerbsfähigkeit steigern

McKinsey’s Report “Big data: The next frontier for innovation, competition, and productivity”, aus dem Jahr 2011 untersucht, wie Daten zu einer wichtigen Grundlage des Wettbewerbs werden sowie ein neues Produktivitätswachstum und Innovationen schaffen.

Wenn Unternehmen heutzutage wettbewerbsfähig bleiben wollen, müssen sie sicherzustellen, dass sie über die entsprechende IT-Infrastruktur verfügen, um mit den heutigen Daten-Anforderungen umzugehen. IaaS bietet damit ein solides Konzept und Fundament, um damit erfolgreich zu bleiben.

Big Data Verarbeitung in der Cloud

Kosteneinsparungen für die interne IT-Infrastruktur, wie Server und Netzwerkkapazitäten, Freisetzen von dadurch nicht mehr benötigtem technischem Personal, um sich somit effizienter auf das Kerngeschäft zu konzentrieren und die Flexibilität neue Lösungen, auf Grund der sich ständig veränderten Datenmengen, besser zu skalieren sind die ersten Schritte um den Anforderungen von Big Data gerecht zu werden.

Cloud Computing Anbieter sind in der Lage auf Basis von Investitionen in ihre Infrastruktur, Big Data taugliche und freundliche Umgebungen zu entwickeln und diese zu warten, wohingegen ein einzelnes Unternehmen dafür nicht die geeigneten Ressourcen für die Skalierbarkeit bereitstellen kann und ebenfalls nicht über die notwendige Expertise verfügt.

Cloud Ressourcen wachsen mit Big Data

Cloud Computing Infrastrukturen sind darauf ausgelegt, dass sie mit den jeweiligen Anforderungen und Bedürfnissen mitwachsen oder sich reduzieren lassen. Unternehmen können die hohen Anforderungen - wie Hohe Rechenleistung, viel Speicherplatz, hohes I/O, performante Datenbanken usw. - die von Big Data erwartet werden, bequem durch die Nutzung von Cloud Computing Infrastrukturen begegnen ohne selbst massiv in eigene Ressourcen zu investieren.



HP zeigt ersten Server speziell für Big Data

HP hat die erste Server-Reihe angekündigt, die speziell für Big Data entwickelt wurde: Der HP ProLiant SL4500 Gen8 ist ab sofort als Ein- und Zwei-Knoten-System erhältlich. Das Ein-Knoten-System eignet sich durch seine Konfiguration mit bis zu 60 Festplatten vor allem als Object-Storage-Device für OpenStack-Cloud-Anwendungen, Redhat Enterprise Linux, SUSE Enterprise Linux oder Microsoft Windows Server. Das Zwei-Knoten-System mit 25 Festplatten pro Knoten eignet sich für Big-Data-Analytics und für Datenbanken wie MongoDB. Voraussichtlich Anfang 2013 wird HP das Portfolio durch ein Drei-Knoten-System nach oben abrunden. Mit dieser Konfiguration können Kunden unter anderem Parallel-Processing- und Big-Data-Anwendungen wie beispielsweise verschiedene Distributionen von Apache Hadoop nutzen.

HP Scaleable Line

Die neuen SL4500-Server (SL = Scaleable Line) sind speziell für Big-Data-Anwendungen entwickelt. Sie bieten je nach Konfiguration bis zu 240 Terabyte Speicherplatz pro Server. Außerdem nutzen sie die RAID-Controller HP Smart Array mit der Technologie Predictive Spare Activation. Diese Technologie erkennt fehlerhafte Laufwerke bevor diese ausfallen und verschiebt die Daten automatisch auf ein freies Laufwerk. So wird die RAID-Initialisierung umgangen, die ansonsten bei einem Plattenausfall entsteht und während der kein Schutz der Daten besteht. Die SL4500-Server befinden sich in einem 4,3 Höheneinheiten großen Chassis. Damit passen bis zu neun Server in ein Standard-Rack. In dem Ein-Knoten-System lassen sich bis zu 2,16 Petabyte Daten speichern. Das entspricht etwa 20 Jahren HD-Filmmaterial. Die Zwei- und Drei-Knotensysteme fassen bis zu 25 respektive 15 3,5-Zoll-Festplatten pro Knoten. Kunden können bei allen drei Konfigurationen zwischen SAS-, SATA- und SSD-Festplatten wählen. Beim Management größerer Umgebungen steht Unternehmen neben dem Server-Management-Werkzeug HP Integrated Lights-Out (iLO) für die Fernüberwachung auch das Werkzeug HP Insight Cluster Management Utility (HP Insight CMU) zur Verfügung. Mit diesem Werkzeug lassen sich große Server-Cluster anhand von Parametern steuern und die Lastverteilung optimieren.

HP bietet die SL4500-Server wahlweise mit Prozessoren von Intel (Xeon E5-2400) und AMD (Opteron 4200). Die Intel-Server nutzen die Server-Architektur der HP ProLiant Gen8, die AMD-Systeme greifen auf die Architektur der Generation 7 zurück. Im Vergleich zu konventionellen Rack-Servern mit JBODs benötigen die SL4500-Server bis zu 50 Prozent weniger Stellplatz, 61 Prozent weniger Energie, 63 Prozent weniger Kabel und sind 31 Prozent günstiger. Das modulare Design ermöglicht eine Vielzahl an Kombinationen von Rechenleistung und Speicherkapazität. Dadurch können Kunden die Server entsprechend ihren Anwendungen anpassen.

Die SL4500-Gen8-Server bieten außerdem bis zu sieben Mal mehr IOPS (Input/Output Operations per Second) als bestehende Architekturen. Die Lösung HP SmartCache verbessert den Speicher-Datenverkehr und verringert dadurch Latenzzeiten. Außerdem greifen die SL4500-Server auf die ProActive Insight Architecture zurück. Diese soll Kunden ermöglichen:

  • Ausfallzeiten zu reduzieren und Daten durch automatische Sicherheits-Funktionen zu sichern.
  • Die Produktivität der Server durch HP Active Health zu maximieren. Dieses Diagnose-Werkzeug erfasst alle Veränderungen an den Servern und der System-Konfiguration. Damit hilft es bei der Fehlerdiagnose und Lösungssuche. HP Smart Update spielt außerdem Firmware-Updates automatisch ein.
  • Die Kosten im Rechenzentrum durch die Technologie HP Intelligent Infrastructure zu senken und die Rechenleistung pro Watt um bis zu 70 Prozent zu steigern.
  • Selbstüberwachung, Selbstdiagnose und proaktiven Support für die Server durch HP Insight Online.

Preise und Verfügbarkeit

Der HP ProLiant SL4500 als Ein-Knoten-System ist ab sofort erhältlich. Der weltweite Listenpreis startet bei 5.925 Euro für die Basiskonfiguration.