AgriPheno

技术的发展已经彻底改变了植物基因型和表型的测量方法，生成了大规模的复杂数据集。在由此产生的植物学“大数据”时代，基础研究和应用研究（例如育种应用）面临的挑战是解释或预测不同环境条件下潜在基因的表型。基因型变异导致细胞生化组成的差异，进而与环境一起影响器官的形成、植物的生长，并最终影响农业相关的性状，例如产量以及对胁迫和害虫的耐受性。揭示基因型变异和环境对表型的影响，有助于深入了解植物发育和生理中重要过程的调控，以及在特定环境中从基因型预测产量和质量性状的能力，这在现代分子植物育种中是必不可少的。分析不同水平上测得的表型或将这些表型与基因型联系起来，越来越需要处理和集成大规模、含噪声和异构的数据集。机器学习（Machine learning）是一种在数据中寻找预测模式的计算方法，在这些工作中扮演着越来越重要的角色。在各种科学和工程领域，机器学习推动了一系列最新的创新，并将在植物研究中发挥同样的作用。

有监督和无监督的机器学习

本文综述了机器学习在植物学和植物育种中的应用，重点介绍了机器学习在生化水平、宏观水平上的应用，以及将基因型与表型联系起来的方法。我们的目的是向非专业用户演示机器学习如何提供一套方法，在相关的植物数据中找到有意义的模式。本文还对机器学习的应用进行了批判性的讨论，并指出了当前和未来的研究方向。

图1210205.jpg

图1基因型变异与不同水平表型变异的关系

图2210205.jpg

图2 生化测量和细胞测量概述

可以测量各种“组学”（基因组学、转录组学、蛋白质组学、代谢组学）数据。机器学习用于分析这些数据（底部）。

图3210205.jpg

图3 植物表型系统概述

使用不同类型的传感器和传感器系统，可以在不同级别观察植物。机器学习在传感器数据的处理过程中起着重要的作用（红框）。

对于具体方面的更深入的评论，我们建议读者参考以下研究：（van Eeuwijk et al., 2019; Singh et al., 2016, Singh et al., 2018;Mochida et al., 2019），重点是性状和表型；（Sperschneider, 2019），重点是在植物-病原相互作用的背景下使用机器学习；（Sun et al., 2019），重点是关于机器学习在植物分子水平上的应用；以及（Wang et al., 2020），重点介绍机器学习在植物基因组学中的应用。有关更一般性的综述，请参见（Zou et al., 2019）的《基因组学》中关于深度学习（DL）的摘要，以及（Gazestani 和Lewis, 2019）的关于使用机器学习将基因型与表型联系起来的概述。

全文阅读

van Dijk A D J, Kootstra G, Kruijer W, et al. Machine learning in plant science and plant breeding. Iscience, 2020, 24(1): 101890.

综述：植物学与植物育种中的机器学习