Wissenschaft : „Tausendmal schneller“

Der Softwareentwickler Matthieu Schapranow erklärt, was sich hinter Big Data verbirgt, wie das Verfahren Leben retten kann und was aus der jüngsten Sicherheitslücke „Heartbleed“ folgt

Riesige Datenfluten. Mittlerweile arbeiten neue Systeme im Exabyte-Bereich, das sind Ziffern mit 18 Nullen.
Riesige Datenfluten. Mittlerweile arbeiten neue Systeme im Exabyte-Bereich, das sind Ziffern mit 18 Nullen.Foto: epd

Herr Schapranow, am Hasso Plattner Institut (HPI) trafen sich am Dienstag zahlreiche Experten, um über Big Data zu diskutieren. Big Data, das klingt erst einmal sehr, sehr groß.

Unter Big Data verstehen wir alles, wofür es keine ordentlichen Anwendungsprozesse gibt. Der Umfang der Datenmengen hängt vom Anwendungsfall ab, in Unternehmen können das bereits einige Terabyte sein, in der Wissenschaft sind die Datenmengen ungleich größer, sie bewegen sich im Peta- oder gar Exabyte-Bereich – das sind Zahlen mit 18 Nullen. Ein Beispiel dafür sind Modelle der Klimaforschung oder auch Erdbebenprognosen von Geoforschern. Big Data macht sich weniger an der Größe fest als an der Frage, wie man die Daten handhabt.

Wo fallen besonders große Datenmengen an?

Ein gutes Beispiel sind die Lebenswissenschaften, bei der Sequenzierung des menschlichen Genoms einer Person geht es allein um 3,2 Milliarden Basenpaare. Es geht auch um diagnostische Verfahren: In einem einzigen Tropfen Blut stecken viele Gigabyte an Rohdaten, aus denen etwas abgeleitet werden kann.

Wie gehen Sie nun mit diesen riesigen Datenmengen um?

Es geht in erster Linie um neue Software und um neue Verfahren der Datenverarbeitung. Zum einen nutzen wir neueste Rechnerarchitekturen, die mehrere Kerne pro Rechner haben. Der Heim-PC hatte früher eine CPU, die nur eine Sache nach der anderen abarbeiten konnte. Hier waren der Beschleunigung Grenzen gesetzt. 2006 wurde dann am HPI die Idee geboren, mehrere Recheneinheiten parallel zu verwenden, um die Verarbeitung riesiger Datenmengen zu beschleunigen, daraus wurde dann die In-Memory-Technologie. Die Herausforderung heute besteht darin, mehrere Rechenkerne gleichzeitig zu beschäftigen. Hinzu kommt, dass die Hauptspeicher der Rechner stetig günstiger werden und in immer größeren Mengen zur Verfügung stehen, das eröffnet ganz neue Perspektiven. So ist der Zugriff auf den Hauptspeicher etwa 1000-mal schneller als konventionelle Festplatten möglich.

Die Daten werden heute auch in die sogenannte Cloud verlagert.

Auch unsere Anwendungen werden nicht manuell durch den Nutzer auf dem eigenen Rechner installiert, sondern sind über das weltweit verfügbare Internet stets auf dem aktuellsten Stand zugänglich. Das erspart aufwendige Wartungsarbeiten und ermöglicht jeweils den Zugriff auf aktuellste Versionen.

Die In-Memory-Technologie stammt aus Potsdam…

…die Idee wurde am Fachbereich von Professor Hasso Plattner entwickelt. Ziel waren rasend schnelle Analysen von Geschäftsdaten unter anderem durch die primäre Datenhaltung im Hauptspeicher. Aufbauend darauf hat die SAP AG dann das Produkt SAP Hana entwickelt. Wir forschen derzeit an neuen Anwendungsgebieten wie beispielsweise der Nutzung im Bereich der Wissenschaft oder des Sports. Hier öffnen sich ganz neue Türen, so auch in den Lebenswissenschaften, der Biologie der Medizin. Wir können nun ganze Genomanalysen oder umfangreiche Textdatenbanken mit einem Mausklick erschließen, das erforderte bisher aufwendige manuelle Recherchen.

Sie betreiben ein Projekt zur Krebsdiagnostik. Inwiefern ist die neue Technik dabei hilfreich?

Maßgeblich ist der Zeitgewinn, der die Heilungschancen signifikant erhöhen kann. Es gibt mehrere Möglichkeiten zur Behandlung, die Mediziner stehen hier oft vor der sprichwörtlichen Suche nach der Nadel im Heuhaufen. In drei von vier Fällen erzielen verfügbare Chemotherapien bei Patienten nicht den gewünschten Erfolg. Hier können schnelle Abgleiche von Patientendaten und Krankengeschichten sofort weiterhelfen, eine passende Auswahl zu treffen, das kann Leben retten. Auch bei gleichem Alter, gleicher Symptomatik und Vorgeschichte kann ein Geschwür in der Brust zum Beispiel auf unterschiedliche Ursachen zurückgehen und zu verschiedenen Unterarten zählen. Das Wissen darüber wäre für den behandelnden Arzt essenziell, nur so kann er im Rahmen der personalisierten Medizin die passende Behandlungsmethode und Medikamentierung wählen.

Wo kommt dabei nun Big Data ins Spiel?

Mithilfe der Genomdaten lassen sich Rückschlüsse ziehen, die vor wenigen Jahren noch reine Utopie schienen – genau dafür ist die umgehende Auswertung großer Datenmengen notwendig. Auch wirken Medikamente unter bestimmten Bedingungen besser oder eben schlechter. Mit konventionellen Entscheidungshilfen kann ein Arzt bei der Auswahl eines Medikaments aus sieben möglichen nur selten das bestmögliche finden. Das lässt sich durch einen Abgleich von Patientendaten erheblich verbessern und beschleunigen. Heute würde ein solcher Abgleich noch Wochen oder Monate dauern. So lange kann ein Arzt bei lebensbedrohlichen Krankheiten aber nicht warten.

Patientendaten sind sensible Daten. Wie schnell kann Big Data zum Big Problem werden?

Wir arbeiten am HPI ausschließlich mit Daten ohne Personenbezug, weil das für die Auswertung nicht notwendig ist. Wir vergleichen die genetischen Daten ohne Namen und Geburtsdaten. Aber natürlich kann man aus Big Data viele Daten herausziehen. Für die meisten wissenschaftlichen Fragestellungen sind jedoch nicht die individuellen Daten interessant, sondern beispielsweise statistische Auswertungen. Unter anderem geht es dabei um die relative Häufigkeit von bestimmten Krebsarten in spezifischen Bevölkerungsgruppen. Oder darum, welche Krebsarten die meisten Neuerkrankungen haben. Das herauszufinden ist eine der Stärken von Big Data.

Sensible Daten laden zum Missbrauch ein. Sollten die Informatiker das machen, was möglich ist, oder braucht es eine zusätzliche Schulung in ethischen Fragen?

Das ist ein denkbarer Ansatz. Das HPI ist in solchen Fragen schon recht weit, es steht unter anderem mit dem Ethikrat der Bundesregierung in Kontakt, um genau diese Fragen zu erörtern. Die Frage, welche Techniken sinnvoll einsetzbar sind, und was daraus folgt, muss gestellt werden. Bei Big Data ist das Problem, dass man vorher nicht weiß, was in dem Datenhaufen drinsteckt. Die Forschung arbeitet nun daran, daraus neue Erkenntnisse zu generieren. Natürlich stellt sich dann die Frage, ob beispielsweise ein Arzt einen Patienten über ein bestimmtes persönliches Risiko, das sich durch die Datenauswertung herausstellt, aufklären sollte oder nicht. Hier sind wir dann im Bereich der Ethik.

Datenschutzbeauftragte warnen davor, dass Big Data zu informationellem Machtmissbrauch, Manipulation und ökonomischer Ausbeutung führen könnte.

Diese Fragen denken wir immer schon mit. Jeder, der mit großen Datenmengen arbeitet, sollte sich über die Datenschutzregeln im Klaren sein. Gerade bei Patientendaten richten unsere Projektpartner ein großes Augenmerk auf den Datenschutz. Dennoch muss man darüber nachdenken, ob Big Data das Problem ist oder der individuelle Umgang jedes einzelnen mit seinen persönlichen Daten. Bei Mehrwert- oder Paybackkarten sind viele Menschen gerne bereit, über ihr Kaufverhalten Auskunft zu geben, um im Gegenzug lediglich minimale Rabatte zu erhalten. Genauso werden mannigfaltige persönliche Daten wie Videos oder Fotos in sozialen Netzwerken ohne Zögern preisgegeben. Der verantwortungsvolle Umgang jedes Einzelnen mit seinen eigenen Daten sollte bereits in der Ausbildung ein Thema sein. Das Bewusstsein dafür, was mit digitalen persönlichen Daten in der Zukunft geschehen kann, fehlt heute noch.

Die Möglichkeiten von Big Data dürfte auch Cyberkriminelle sehr interessieren.

Das hat nicht unbedingt etwas mit diesen neuen Technologien zu tun, die Kriminalität ist im IT-Bereich seit jeher sehr aktiv nur das allgemeine Bewusstsein ist erst durch jüngste Ereignisse zunehmend darauf geschärft. Am HPI gibt es einen eigenen Fachbereich der sich mit IT-Sicherheit und Schutzmaßnahmen in Cloudanwendungen aktuell beschäftigt. Es geht darum, den Zugriff von Unbefugten auf Daten zu verhindern und den Austausch sicherer zu machen. Die jüngste Sicherheitslücke „Heartbleed“ hat einmal mehr vor Augen geführt, dass lange Jahre darauf vertraut wurde, dass etwas, das für sicher gehalten wurde, auch sicher ist. Aber in der IT gibt es keine Sicherheit, es ist ein fließender Prozess. Eine Verschlüsselung, die vor fünf Jahren als sicher galt, lässt sich heute binnen weniger Sekunden knacken. Neue Geräte und Aktualisierungen sind im IT-Bereich immer notwendig, darüber sollte sich jeder im Klaren sein.

Der Verbraucher hinkt dabei doch permanent hinterher.

Auch bei Big Data ist es so, dass es keine endgültigen Lösungen gibt. Neuigkeiten aus der Forschung mit einem guten Zweck öffnen eben oft auch eine Tür für Missbrauch. Andererseits können die Daten beispielsweise in der Medizin dazu genutzt werden, um Menschenleben zu retten. Wir können den Medizinern, die keine IT-Experten sind, die ihnen fremden Aufgaben der Datenanalyse so einfach gestalten, dass sie das leicht nutzen können. Aus einer riesigen Datenflut diagnostischer Ergebnisse zu einem Patienten die richtigen Zusammenhänge zu erkennen ist für den Arzt nicht möglich. Big Data aber wird ihm das ermöglichen. In der Zukunft wird es in der Medizin zunehmend um interdisziplinäre Zusammenarbeit gehen, etwa mit Biologen, Genetikern und eben auch Software-Ingenieuren.

Das Gespräch führte Jan Kixmüller