一项新的研究显示,对精神分裂症治疗结果的临床预测模型无法在未来的试验中进行泛化,尽管这些模型在其研发试验中的预测结果良好。Frederike Petzschner 在相关的《视角》中说:“这些发现不仅凸显了机器学习方法需要有更严格的方法论标准,而且人们还需要重新检视精准医疗所面临的实际挑战。”尽管罹患相同病痛者接受的治疗相同,但有些患者的情况会有所改善,而另一些患者则未见疗效。精确医疗法试图通过为具体患者提供量身定制的治疗方法来解决这一问题。旨在查明能预测对某具体个人施行正确治疗的基因、社会经济或生物学标记的机器学习模型可以挖掘复杂的大型数据;这些模型被视作有望改善精确医疗结果的工具。 然而,这些模型通常只有在基于其的数据集或临床的成功背景中得到验证,而在这些临床条件下,对某种既定治疗的反应是已知的。尽管至关重要,但人们对这些模型在不可预见的数据或独立的患者样本中的功效如何并不十分清楚。为阐明这一问题,Adam Chekroud 和同事就机器学习模型在几项独立的用抗精神病药物治疗精神分裂症的临床试验中的泛化能力进行了评估。尽管这些模型在其被开发的数据集中极为精确地预测了患者的结果,但它们在预测独立试验数据时的性能却并不优于随机水平。即使将来自多个临床试验的数据汇总用于该模型训练,但其预测能力仍然无法泛化到独立的新型临床试验。这些发现提示,基于单个数据集的模型估测所提供的对未来的预测性能十分有限。 作者重点介绍了为什么会出现这种情况的三个可能的关键原因。Chekroud 等人写道:“就该领域整体而言…人们希望机器学习法最终可改善医疗资源的分配; 但是,我们应该对缺乏独立验证样本的任何预测模型的结果先验地持怀疑态度。”