技术的发展已经彻底改变了植物基因型和表型的测量方法,生成了大规模的复杂数据集。在由此产生的植物学“大数据”时代,基础研究和应用研究(例如育种应用)面临的挑战是解释或预测不同环境条件下潜在基因的表型。基因型变异导致细胞生化组成的差异,进而与环境一起影响器官的形成、植物的生长,并最终影响农业相关的性状,例如产量以及对胁迫和害虫的耐受性。揭示基因型变异和环境对表型的影响,有助于深入了解植物发育和生理中重要过程的调控,以及在特定环境中从基因型预测产量和质量性状的能力,这在现代分子植物育种中是必不可少的。分析不同水平上测得的表型或将这些表型与基因型联系起来,越来越需要处理和集成大规模、含噪声和异构的数据集。机器学习(Machine learning)是一种在数据中寻找预测模式的计算方法,在这些工作中扮演着越来越重要的角色。在各种科学和工程领域,机器学习推动了一系列最新的创新,并将在植物研究中发挥同样的作用。
有监督和无监督的机器学习
本文综述了机器学习在植物学和植物育种中的应用,重点介绍了机器学习在生化水平、宏观水平上的应用,以及将基因型与表型联系起来的方法。我们的目的是向非专业用户演示机器学习如何提供一套方法,在相关的植物数据中找到有意义的模式。本文还对机器学习的应用进行了批判性的讨论,并指出了当前和未来的研究方向。
图1基因型变异与不同水平表型变异的关系
图2 生化测量和细胞测量概述
可以测量各种“组学”(基因组学、转录组学、蛋白质组学、代谢组学)数据。机器学习用于分析这些数据(底部)。
图3 植物表型系统概述
使用不同类型的传感器和传感器系统,可以在不同级别观察植物。机器学习在传感器数据的处理过程中起着重要的作用(红框)。
对于具体方面的更深入的评论,我们建议读者参考以下研究:(van Eeuwijk et al., 2019; Singh et al., 2016, Singh et al., 2018;Mochida et al., 2019),重点是性状和表型;(Sperschneider, 2019),重点是在植物-病原相互作用的背景下使用机器学习;(Sun et al., 2019),重点是关于机器学习在植物分子水平上的应用;以及(Wang et al., 2020),重点介绍机器学习在植物基因组学中的应用。有关更一般性的综述,请参见(Zou et al., 2019)的《基因组学》中关于深度学习(DL)的摘要,以及(Gazestani 和Lewis, 2019)的关于使用机器学习将基因型与表型联系起来的概述。