指导临床试验设计的事件预测

案例研究

在完成一项早期阶段的临床试验之后,申办者计划用同一化合物进行更大规模的二期b试验,但希望了解第一项试验的临床数据中是否有任何生物标志物可预测特定事件。 项目开始时,我们花时间与申办者公司的临床医生和科学家进行了交流,以期充分理解团队所提出的问题以及在运行分析之前他们所需的见解。 这种互动构成了任何数据科学项目的关键环节。

工作的第一部分是关于特征选择,即选择临床数据中可能作为事件预测因素的变量,例如:人口统计数据和实验室数据。 此项工作是与科研团队合作完成的,确保他们的经验和知识被纳入这一流程。

在联合使用专业工作流工具和R提取并处理了相关数据之后,并在应用机器学习方法之前,我们运用统计和可视化方法对数据进行了深入研究。 例如:该团队检查了数据一致性、缺失数据、异常值等,这些都以书面报告形式提供给试验团队。 在使用R时,应用了包括随机森林和梯度提升在内的多种机器学习方法,并使用交叉验证进行评估。 对不同方法的预测能力、精密度和召回率,以及极为关键的变量重要性进行了分析和展示。

变量重要性描述了数据中不同特征对预测器的贡献度,确保统计结果不仅是“黑箱”预测器,还提供了哪些变量对预测器至关重要的见解。 随后便可以利用数据科学团队提供的可视化技术,细致观察最具预测性的变量。 这些结果被用来作为临床团队的证据来源,为设计下一项试验时的决策提供支持。 除对临床数据进行数据挖掘之外,申办者还提出了一个额外要求,即在整个文献中进行文本挖掘,从外部了解在选定患者群体中是否存在任何可能与该事件相关的变量。 此项工作注重文献中变量和报告之间的关联强度得分,并被用来支持决策制定。