thumb

Die US-amerikanische Speicher-Spezialistin EMC stellte mit Greenplum Chorus eine Datenauswertungsplattform auf Open-Source-Basis zum Outsourcing von und zum gemeinsamen Arbeiten an statistischen und analytischen Problemstellungen vor. Darüber hinaus lancierte die Firma eine Kooperation mit dem Start-up "Kaggle", einer Plattform für Predictive Modeling-Wettbewerbe, und eröffnet so den Zugang zu weltweit 55.000 Datenexperten.

Im Rahmen der Zusammenarbeit integriert EMC den Zugang zur Kaggle-Community in Greenplum Chorus. Chorus ist eine Software-Plattform, die es Datenexperten erleichtern soll, gemeinsam an Datenanalysen zu arbeiten. Die Kaggle-Community besteht aus 55.000 Datenexperten, die sich auf Wettbewerbsbasis an der Ableitung von Vorhersagen aus einem Datenbestand beteiligen; die jeweils beste Lösung wird vom Auftraggeber des Wettbewerbs honoriert, dieser erhält im Gegenzug die Rechte an der Auswertungsmethode.

EMC adressiert mit der Zusammenarbeit mit Kaggle eines der wohl drängendsten Probleme der Branche - den Mangel an qualifizierten Datenexperten. Laut einer im Mai 2011 veröffentlichten Studie ("Big Data: Die nächste Herausforderung für Innovation, Wettbewerb und Produktivität") des McKinsey Global Institute, gibt es einen Mangel an Fachkräften, der verhindert, dass Unternehmen das Potenzial von Big Data voll ausschöpfen können. Die Integration von Kaggle und Chorus soll es Unternehmen erleichtern, die Vorteile von Big-Data-Analysen für sich zu nutzen. Datenexperten wiederum können ihre Erfahrung in Projekte einbringen und ihre Referenzen erweitern.

Chorus-Nutzer können über die Benutzeroberfläche in der Kaggle-Community nach Experten suchen, die sich entschieden haben, Aufträge über Chorus anzunehmen. Entsprechende Profile helfen bei der Suche nach passenden Experten. Über die Schnittstellen zwischen Chorus und Kaggle ist laut EMC eine sichere Kommunikation gewährleistet, sodass Chorus Workspaces geschützt zugänglich gemacht und sicher Nachrichten ausgetauscht werden können. Die Kaggle-Experten erhalten Informationen zum geplanten Projekt und können direkt dem Chorus-Nutzer antworten, um mehr Details zu erfragen und einen Auftrag anzunehmen.

Die Chorus-Plattform stellt EMC im Rahmen des "Openchorus"-Projekts unter Open-Source-Lizenz zur Verfügung. Das Ziel ist es den Angaben gemäss, die Entwicklung von Big-Data-Anwendungen zu fördern und Unternehmen die nötige Flexibilität zu geben, ihre Strategien umzusetzen. Der Quellcode von Greenplum Chorus steht ab sofort über das Openchorus-Projekt zur Verfügung. Die Integration von Chorus und Kaggle wird voraussichtlich im November 2012 nutzbar sein.

Neben Kaggle unterstützen eine Reihe von EMC Greenplum Partnern das Openchorus-Projekt und haben angekündigt, ihre Lösungen mit Chorus zu integrieren. Dazu zählen Actuate, Advizor Solutions, Alpine Data Labs, Gnip, Informatica, Pentaho, Pervasive, SAS, Syncsort und Tableau Software.