Sie sind hier: Startseite / Newsroom / Jahresberichte / 2014 / Infrastruktur für Big Data

Infrastruktur für Big Data

Verwalten, verknüpfen, verstehen

Die neuen Technologien zur Analyse etwa des Genoms, Transkriptoms oder Proteoms erzeugen riesige Datenmengen. Zusammen mit klinischen Daten eröffnen diese digitalen Datenberge - Big Data genannt - neue Möglichkeiten, Entzündungskrankheiten umfassend zu verstehen. Um tatsächlich systemmedizinische Erkenntnisse zu gewinnen, müssen die Daten sinnvoll zusammengeführt, verwaltet und ausgewertet werden. Das ist keinesfalls trivial. Über Herausforderungen und Chancen, die Big Data mit sich bringen, informieren Professor Andre Franke, Professor Detlef Zillikens und Professor Saleh Ibrahim.

Was ist die größte Herausforderung bei der Arbeit mit großen Datenmengen, die beispielsweise bei genetischen Analysen entstehen?
ANDRE FRANKE: Die größte Herausforderung ist aktuell, die entstehenden Daten sinnvoll und gut strukturiert zu verwalten. Erst wenn wir solch eine grundlegende Struktur aufgebaut haben, können wir tatsächlich systemmedizinisch mit den Daten arbeiten. Das heißt, die einzelnen Daten miteinander in Beziehung setzen und den so entstandenen Mehrwert für Modelle nutzen. Diese Modelle können wir für Vorhersagen nutzen, beispielsweise wie schwer ein Krankheitsverlauf sein wird. Wenn dieses Modell durch Beobachtungen des Krankheitsverlaufs und weitere Analysen von Bioproben validiert wird, spricht man von einem systemmedizinischen Ansatz.
Außerdem wäre es für die Forschung extrem hilfreich, klinische Daten aus Patientenakten mit genetischen Daten verknüpfen zu dürfen. Wir haben bereits verschiedene Bioproben (Blut, Stuhl, Gewebe) in der Biobank popgen; diese mit klinischen Daten der jeweiligen Patientinnen und Patienten verknüpfen zu können, beispielsweise mit den bekannten Krankheiten der Betroffenen, eingenommenen Medikamenten oder dem Verlauf von Erkrankungen, würde der Grundlagenforschung einen immensen Wissenszuwachs ermöglichen. Und dann müssen wir natürlich auch sämtliche Daten systematisch erheben, dieses erfolgt derzeit nur exemplarisch.

Werden bisher klinische Daten noch nicht mit Daten von Bioproben, die beispielsweise bei genetischen Analysen entstehen, verknüpft?
SALEH IBRAHIM: Es gibt schon Forschungsprojekte, wo wir klinische und genetische Daten verknüpfen. Allerdings gibt es bei unserem Forschungsschwerpunkt zu autoimmunen, blasenbildenden Hauterkrankungen eine Besonderheit. Diese Autoimmunerkrankungen sind selten. Für unsere Forschungsprojekte sind wir abhängig von Proben, die aus anderen Zentren in Deutschland und auch aus der ganzen Welt zu uns kommen. Das macht es sehr schwierig, zu den Proben die notwendigen klinischen Daten zu bekommen. Wir haben eine große, weltweite Kohorte mit mehreren Tausend Personen. Von diesen haben wir sehr umfangreiche Proben und auch die dazugehörigen klinischen Daten. Mit diesem Datensatz führen wir eine genomweite Assoziationsstudie durch und kombinieren die genetischen mit den klinischen Daten.
DETLEF ZILLIKENS: Diese Studie basiert auf dem Nachweis von Autoantikörpern gegen Strukturproteine in der Haut. Es gibt eindeutige Biomarker, in der Haut und im Blut dieser Patienten mit bullösen Autoimmundermatosen. Wir haben hier in der Klinik ein Referenzzentrum für die Diagnostik dieser Erkrankungen. Viele niedergelassene Ärzte, aber auch Kliniken, schicken uns Probenmaterial. Dies beinhaltet Hautproben für die Histologie und den Nachweis von Autoantikörpern sowie Serum. Dadurch erhalten wir eine gute immunpathologische Charakterisierung. Dazu bekommen wir auch Informationen zum klinischen Phänotyp der Erkrankung. Die Auswertung dieser Daten wollen wir jetzt in einem großen klinischen Forschungsprojekt realisieren.


Andre Franke
ist Direktor am Institut für Klinische Molekularbiologie an der Christian-Albrechts-Universität zu Kiel und leitet die Arbeitsgruppe Genetik und Bioinformatik. Er ist maßgeblich am Aufbau der Struktur i2b2 in Kiel beteiligt, die klinische Daten und Forschungsdaten verknüpft.

Franke

Beinhalten diese Datensätze beispielsweise auch Informationen zum Proteom oder zur mikrobiellen Besiedlung, dem Mikrobiom?
IBRAHIM: Diese Daten haben wir aktuell nur für einige Fälle vorliegen, wollen das aber zukünftig erheblich ausbauen. Wir planen bei einigen Hundert Betroffenen und gesunden Kontrollgruppen die Mikrobiota von Haut und Darm zu untersuchen. Dabei analysieren wir die Genexpression und kooperieren diesbezüglich auch mit der Arbeitsgruppe von Professor Andre Franke.

Herr Professor Zillikens, welche Fragen würden Sie als Kliniker gerne im Zusammenhang mit Daten aus den Bioproben beantwortet haben?
ZILLIKENS: Für uns ist die zentrale Frage: Welche Prozesse führen nach Bindung der Autoantikörper in der Haut zur Einwanderung von Entzündungszellen, zu deren Aktivierung und zum Gewebeschaden? Die Autoimmunerkrankungen der Haut sind Paradigmen für organspezifische Autoimmunerkrankungen. Davon gibt es eine große Anzahl im gesamten Körper. Der große Vorteil an der Haut ist, dass sie zum einen sehr leicht zugänglich ist. Zum anderen ist es uns in den vergangenen zehn Jahren gelungen, in Tiermodellen die Erkrankungen zu duplizieren, die wir bei unseren Patientinnen und Patienten beobachten. Im Zusammenspiel verschiedener Projekte wollen wir verstehen, was letztendlich zum Gewebeschaden in der Haut führt, und wie wir diesen modulieren können. Aus diesen Erkenntnissen können wir hoffentlich auch Rückschlüsse auf andere Autoimmunerkrankungen ziehen, die teilweise ganz ähnliche Mechanismen haben, deren Zielorgane aber viel schlechter zugänglich sind als die Haut.

Sie wollen also verstehen, wie der Entzündungsprozess einsetzt und funktioniert?
ZILLIKENS: Richtig. Denn allein das Vorhandensein von Antikörpern führt noch nicht zu der Erkrankung. So ist bei den Autoimmunerkrankungen das jeweilige Organ meistens voll von Autoantikörpern. Dennoch können Betroffene monate- oder jahrelang beschwerdefrei sein. Und plötzlich passiert etwas, das zum Einwandern und Aktivieren der Entzündungszellen führt und die Erkrankung nach sich zieht. Wir wollen verstehen, was in diesem Moment passiert. Ein Auslöser könnten Veränderungen im Mikrobiom von Haut oder Darm sein. Auch mechanische Irritationen, also Verletzungen, könnten die Entzündungen auslösen.

Herr Professor Franke, mit welcher Art von Daten arbeiten Sie momentan?
FRANKE: Aktuell arbeiten wir vor allem mit statischen Daten. Das bedeutet, wir analysieren Daten für Proben, die zu einem einzelnen Zeitpunkt entnommen wurden und gewinnen zum Beispiel Informationen darüber, wie genetische Informationen in Zellen umgesetzt werden. Die echte Systembiologie oder Systemmedizin analysiert aber einen dynamischen Verlauf, also Probennahmen zu mindestens zwei verschiedenen Zeitpunkten. Erst dann kann man tatsächlich Modelle nutzen, um die verschiedene Omics Ebenen, also Genom, Transkriptom, et cetera miteinander zu verschneiden und so fundierter auszuwerten. Im Anschluss an die Modellierung müssen die entstandenen Hypothesen durch gezielte Experimente validiert werden. So schließt sich dann der Kreis der echten Systemmedizin.

Herr Professor Ibrahim, bitte beschreiben Sie an einem Beispiel, wie ein Forschungsprojekt mit systembiologischem Ansatz aussehen würde?
IBRAHIM: Das wäre beispielsweise unser Projekt zum bullösen Pemphigoid. Diese blasenbildende Autoimmunerkrankung der Haut betrifft hauptsächlich ältere Menschen, während sich andere Autoimmunerkrankungen üblicherweise im Alter von 30 bis 40 ausprägen. Wir glauben, dass diese spezielle Krankheit von ganz anderen genetischen Faktoren ausgelöst wird als beispielsweise Rheuma oder Neurodermitis. Die Frage ist: Wie können wir das krankheitsverursachende Gen identifizieren? Bei einem systemmedizinischen Ansatz würde man alle klinischen und immunpathologischen Daten sammeln, inklusive der Titer der Autoantikörper. Gleichzeitig würde man das Hautmikrobiom an verschiedenen Stellen am Körper untersuchen sowie die Genexpression in der Haut und das Mikrobiom des Darms. Aus der gesamten Datenmenge würden wir einen Phänotypen extrahieren. Wir könnten mit den Daten sagen, auf welchen Wegen die Erkrankung bei jedem Einzelnen ausgelöst wird. Dadurch könnten wir für Betroffene eine individuelle Therapie schneidern, weil wir wüssten, welche Mechanismen bei dieser Person die Erkrankung auslösen und auf welche Präparate die Person gut ansprechen würde.
ZILLIKENS: Letztendlich geht es darum, Biomarker zu identifizieren, die uns bei differentialtherapeutischen Entscheidungen leiten. Wir wollen Subgruppen von Patienten definieren, die wir mit hochspezialisierten Konzepten behandeln können. Das Stichwort ist individualisierte Medizin.

In welche Richtung wird sich der Cluster mit dem Themenfeld Bioinformatik und medizinische Systembiologie entwickeln?
FRANKE: Nach der bioinformatischen Auswertung schließt sich eine Modellierung an, die wir im Cluster noch weiter ausbauen müssen. Bei der Modellierung kooperieren wir mit Wissenschaftlerinnen und Wissenschaftlern aus der Physik. Dadurch entstehen sehr komplexe Modelle, die beispielsweise vorhersagen können, wie schwer der Verlauf einer bestimmten Erkrankung bei einer Person sein wird. Die Berufung von Christoph Kaleta auf die Professur für Medizinische Systembiologie ist ein wichtiger Schritt in diese Richtung gewesen. Im Anschluss an die Modellierung müssen die entstandenen Daten durch Experimente und Untersuchungen validiert werden. Dafür müssen wir in den nächsten Monaten mehr verstehen was die Systemmedizin an Hypothesen liefern kann und was nicht. Auch wo der Mehrwert gegenüber klassischen bioinformatischen Ansätzen liegt. Bis dahin ist es noch ein kleiner Weg.

Ibrahim


Saleh Ibrahim
ist Direktor am Institut für Experimentelle Dermatologie der Universität zu Lübeck und leitet die Arbeitsgruppe Genetik der Entzündlichen Hauterkrankungen. Der Schwerpunkt seiner Forschung sind statistische und physikalische Modelle für Autoimmunerkrankungen.

Was ist das Ziel der Modellierung? Was gewinnen Sie damit?
IBRAHIM: Die Idee ist, ein Modell zu entwickeln, das genetische, klinische (das heißt zum Phänotyp der Erkrankungen gehörende) und Proteindaten sowie metabolische Daten beinhaltet. Aus den Informationen kann man einen Rückschluss auf den Entstehungsmechanismus der Erkrankung ziehen. Das Modell kann beispielsweise vorhersagen, dass ein Patient mit einer Psoriasis einen erhöhten Gehalt des Proteins XY aufweist. Mit dieser Information muss man wieder einen Schritt zurückgehen und den Gehalt des entsprechenden Proteins beim Patienten überprüfen. Erst der systemmedizinische Ansatz gibt mir die Information, dass ich bei einem bestimmten Krankheitsbild einen speziellen Biomarker untersuchen sollte, um ein noch besseres Verständnis der Erkrankung zu bekommen.

Herr Professor Franke, Sie sind in Kiel maßgeblich am Aufbau von IT-Infrastrukturen beteiligt, um die Grundlagen für die medizinische Systembiologie zu legen. Was muss dieses System leisten?
FRANKE: Wir brauchen Infrastrukturen, um die Forschungsdaten zu verwalten und diese zusammen mit den klinischen Daten auszuwerten. Dieses System heißt Informatics for Integrating Biology & the Bedside, kurz i2b2. Gemeinsam mit Professor Isaac Kohane von der Harvard Medical School, der visiting professor im Cluster ist, wollen wir i2b2 in Schleswig-Holstein aufbauen. Außerdem brauchen wir Daten von verschiedenen Zeitpunkten im Verlauf einer Erkrankung. Das ist teuer in der Erfassung und man muss sich gut überlegen, wie man diese Zeitreihen strukturiert.

Welche Art von Software benötigen Sie neben der Hardware Ausrüstung noch?
FRANKE: Wir brauchen Programme, die bei der Verwaltung unserer Daten die so genannten Metadaten mit abspeichern. Diese Metadaten beinhalten detaillierte Informationen, beispielsweise welches Gerät genutzt wurde oder welche Chemikalien verwendet wurden. Hier viel Arbeit in die Erfassung der Daten zu stecken, ist aber sehr sinnvoll, weil nur so standardisierte und damit vergleichbare Daten geschaffen werden können.

Wie ist es um die Rechnerkapazitäten bestellt? Sind diese ausreichend für Ihre Fragestellungen?
FRANKE: In Bezug auf die Speicher- und Analysekapazitäten sind wir hier sehr gut aufgestellt. Die Rechnerkapazitäten müssen aber natürlich kontinuierlich erneuert werden. Im Rechenzentrum in Kiel steht ein High Performance Cluster, den wir für unsere Auswertungen nutzen. Das entspricht der Rechenleistung von rund 1000 normalen Computern, so dass wir 1000 Analysen parallel laufen lassen können. Bei der Speicherkapazität sind wir auch dank des Clusters sehr gut aufgestellt, so dass wir für die nächsten zwei Jahre vorgesorgt haben. Aktuell haben wir in Kiel eine Speicherkapazität von zwei Petabyte, das sind zwei Millionen Gigabyte.
Ein Problem ist allerdings die Bandbreite zwischen den Gebäuden und Standorten. Der Datendurchsatz ist aktuell das Nadelöhr. Die Leitungen sind vorhanden, aber nicht so leistungsfähig. Unser Wunsch wäre eine Bandbreite von 40 GB, was technisch realisierbar wäre. Auch der Ablink ins Internet ist limitiert, dort muss investiert werden. Der Bedarf nach Leitungskapazitäten wird nicht abnehmen.

Zillikens


Detlef Zillikens
ist Direktor der Klinik für Dermatologie, Allergologie und Venerologie des Universitätsklinikums Schleswig-Holstein, Campus Lübeck. Seit über 25 Jahren befasst er sich mit blasenbildenden Autoimmundermatosen. Die Lübecker Dermatologie ist eins der weltweit führenden Institute auf diesem Gebiet.

Wann schätzen Sie, wird das System einsatzbereit sein?
FRANKE: 2016 soll das Konzept stehen und die noch fehlende Hardware vorhanden sein. Dann würden wir noch etwa ein Jahr brauchen, um die Anwendungen zu testen. Das dauert alles so lange, weil wir ein standortübergreifendes Konzept für Schleswig-Holstein entwickeln wollen, um große Datenmengen sinnvoll und sicher zu archivieren. Im Cluster ist das Clusterlabor IX (Theoretische Biologie) in den Aufbau der Strukturen mit eingebunden. Das Datenschutzproblem ist bereits gelöst. Das Individuum wird im System nicht mehr erkennbar sein, da sämtliche Daten mehrfach pseudonymisiert werden. Trotzdem besteht die Möglichkeit, bei Bedarf Patientinnen und Patienten auf Grundlage der hinterlegten Daten zu kontaktieren.

Welchen Mehrwert in der Auswertung von Daten könnten die Strukturen und das System i2b2 für den Cluster schaffen?
FRANKE: Eine mögliche Anwendung wären so genannte Phänotyp-übergreifende Assoziationsstudien. Das bedeutet, ein bestimmter Genabschnitt, der beispielsweise mit Morbus Crohn assoziiert ist, interessiert mich. Mit einem System wie i2b2 könnte ich aus den Datenbanken die Information bekommen, welche Erkrankungen noch mit diesem Genabschnitt assoziiert sind. Das wäre ein erheblicher Mehrwert, den mir das System i2b2 liefern würde. Außerdem wäre das System nutzbar als eine Art Suchmaschine, um Fragestellungen für zukünftige Projekte zu ermitteln.
ZILLIKENS: Wir generieren aktuell viele Daten, klinische Daten aber auch Omicsdaten. Diese können momentan nicht miteinander kombiniert werden, weil sie in verschiedenen Systemen lagern. Das Zusammenführen der Daten hat ein enormes Potential, beispielsweise um neue Biomarker zu generieren. Wenn es gelänge, dort eine Schnittstelle herzustellen, wäre das ein enormer Wissenszuwachs. Wir dürfen aber nicht vergessen, dass wir zum Teil mit seltenen Erkrankungen arbeiten. Wir sind daher darauf angewiesen, Daten, auch klinische Daten, von anderen Einrichtungen zu bekommen.

Was wäre der praktische Nutzen des Systems, beispielsweise zur Behandlung oder Früherkennung?
FRANKE: Mit einem möglichst großen Datensatz können wir beispielsweise genetische Charakteristika sehr viel besser bestimmten Krankheiten zuordnen. Die maßgeschneiderte Therapie ist das große Ziel, das wir mit diesem System verfolgen.
ZILLIKENS: Insbesondere die Früherkennung ist unser großes Ziel. Aktuell erreichen wir die Patientinnen und Patienten erst, wenn die Erkrankungen vollständig ausgebrochen sind. Dann ist die gesamte Lawine der Entzündungskaskade bereits angelaufen. Wir wissen aber, dass es in diesem Stadium wesentlich schwieriger ist, die Symptome erfolgreich zu behandeln, als in einem früheren Krankheitsstadium. Je früher wir beginnen, umso weniger aufwendig und nebenwirkungsärmer ist die Therapie. Deswegen wollen wir Biomarker verstehen und entwickeln, die uns die Diagnose und Therapie dieser schwerwiegenden Erkrankungen in einem möglichst frühen Stadium erlauben.

Artikelaktionen