Herr Hagen, Sie haben die erste Big-Data-Professur Deutschlands inne. Bekannt für die effiziente Analyse und Nutzung großer Datenmengen sind eigentlich US-Konzerne wie Google & Co. Wozu braucht es eine Big-Data-Professur?
Wir wollen spannende Fragen finden, die sich dank großer Datenmengen beantworten lassen. Das macht Google bestimmt auch – behält das aber weitgehend für sich. Dagegen ist unser Ziel, darüber auch zu veröffentlichen, mitzuteilen, was wir gefunden haben. Spannend für die Wissenschaft ist dabei etwa information retrieval: die Suche in großen Textdatenmengen. Wenn ich etwa eine Hintergrundrecherche gemacht und eine Handvoll Dokumente gefunden habe, die ich interessant finde, ist es immer schwierig herauszufinden, was ich mir noch alles ansehen müsste. Wenn ich weiß: Fünf Texte zu finden, hat mich zehn Minuten gekostet – dann dauert das Weiterwühlen, um die nächsten 50 relevanten Dokumente zu finden, vielleicht mehr als eine halbe Stunde. Bekomme ich diese Dokumente dagegen automatisch vorgeschlagen, würde mir das viel Zeit sparen.
Future Skills
„Big Data findet alles“

Ein großer Vorteil von big data in der Wissenschaft ist ja auch, dass sich bisher verborgene Zusammenhänge aufdecken lassen ...
Ja, durch das mining, die automatisierte Suche in großen Textmengen, kann ich Zusammenhänge entdecken, die ein Mensch sonst nie finden würde: Weil er es einfach nie schaffen würde, die Millionen von Dokumenten zu lesen. Durch die automatisierte Analyse vieler Studien kann ich beispielsweise Nebenwirkungen oder Wechselwirkungen von Medikamenten finden. Ich kann Testreihen viel gezielter angehen. Das gab es früher so nicht, und das steckt auch jetzt noch in den Kinderschuhen.
Wo verändert big data die Wissenschaft am meisten?
Simulationen sind sehr spannend: Sie sind in vielen Bereichen der Ingenieurstechnik unerlässlich geworden. Also nicht nur echte Messwerte zu erheben, sondern auf der Basis von Daten, die ich früher einmal erhoben habe, Dinge zu simulieren. Solche Simulationen produzieren unheimlich viele Daten in nahezu beliebiger Größenordnung. Wir können diese heute nicht nur abspeichern, sondern auch der Analyse zugänglich machen – und es gibt jetzt auch Ideen, welche Fragen ich damit beantworten kann. Das ist ein Bereich, der auch noch gar nicht ausgereizt ist. Viele Versuche würden sehr viel Geld verbrennen, wenn man sie tatsächlich machen würde – oder sind vielleicht sogar ethisch-moralisch nicht in Ordnung. Wenn man zum Beispiel Tierversuche simulieren könnte, wäre das sicherlich nicht nur für die Tiere besser, sondern auch für denjenigen, der früher die Experimente durchführen musste.
