Ereignisvorhersage als Orientierung beim Design der klinischen Studie

FALLSTUDIEN

Nach dem Abschluss einer klinischen Studie der Frühphase plante der Sponsor eine größere Studie der Phase-IIb mit dem gleichen Wirkstoff, wollte allerdings wissen, ob es in den klinischen Daten aus der ersten Studie Biomarker gab, die für ein spezifisches Ereignis prädiktiv waren. Zu Beginn des Projekts verbrachten wir einen Teil der Zeit mit den Klinikern und Forschern im Unternehmen des Sponsors, um die Fragestellung des Teams vollkommen zu begreifen, und um zu ermitteln, welche Erkenntnisse vor der Durchführung der Analyse benötigt wurden. Diese Interaktionen bilden einen entscheidenden Teil jedes Projekts im Bereich Data Science.

Im ersten Teil der Arbeit ging es um die Merkmalsselektion, d. h. die Auswahl jener Variablen in den klinischen Daten, die potenziell als Prädiktoren von Ereignissen nützlich sein konnten, zum Beispiel Demografie und Labordaten. Diese Aufgabe wurde in Zusammenarbeit mit den Forschungsteams durchgeführt, um sicherzustellen, dass deren Erfahrung und Wissen in den Prozess einfließen konnten. Nachdem die Extraktion und Verarbeitung der relevanten Daten mittels einer Kombination aus speziellen Workflow-Tools und R abgeschlossen war, wurden statistische und visuelle Konzepte angewandt, um sich in die Daten zu vertiefen, bevor Ansätze aus dem maschinellen Lernen angewandt wurden. Beispielsweise untersuchte das Team die Datenkonsistenz, fehlende Daten, Ausreißer etc. und legte dem Studienteam die Resultate in einem schriftlichen Bericht vor.

Verschiedene Maschinenlernansätze wurden mit R verwendet, darunter auch Random-Forest- und Gradient Boosting-Methoden, und per Kreuzvalidierung evaluiert. Die Prognosekraft, Präzision und der Recall der unterschiedlichen Methoden sowie die Variable Importance, die äußerst wichtig ist, wurden analysiert und vorgestellt. Variable Importance (Bedeutung der Variablen) beschreibt, wie verschiedene Merkmale in den Daten zum Prädiktor beigetragen haben. Dadurch wird abgesichert, dass die Ausgabe nicht nur ein „Black-Box“-Prädiktor war, sondern Erkenntnisse darüber bietet, welche Variablen tatsächlich wichtig für den Prädiktor waren. Danach war es möglich, die prädiktivsten Variablen mithilfe von Visualisierungstechniken, die das Data-Science-Team geliefert hatte, genauer zu untersuchen.

Die Ergebnisse dienten als eine Evidenzquelle für das klinische Team, um die Entscheidungsfindung in der Designphase für die nächste Studie zu verbessern. Zusätzlich zum Data-Mining, das wir bei den klinischen Daten durchführten, bat der Sponsor um einen fachliteraturübergreifenden Text-Mining-Ansatz, um herauszufinden, ob es eventuell Variablen gab, die sowohl extern als auch in der ausgewählten Population mit dem Ereignis assoziiert werden konnten. Hierfür untersuchten wir die Höhe des Assoziationsscores zwischen den Variablen und Berichten in der Literatur. Die Ergebnisse flossen ebenfalls in die Entscheidungsfindung ein.