当前位置: 首页 > news >正文

鲁东大学提出可解释的自适应集成机器学习全基因组选择算法用于小麦产量性状关键SNPs筛选

研究背景

全基因组选择(genomic selection, GS)是现代分子育种中的一项重要技术,作为一种强大的机器学习GS方法,堆叠集成学习(stacking ensemble learning, SEL)有效地融合了不同模型(基学习器)的优势,以精确描绘表型与基因型之间的复杂关系。然而,在SEL的关键步骤中,目前缺乏一种有效且统一的基学习器选择框架,而且仅根据经验选择固定的基学习器并不总是合理的。所以,有必要开发一种能够根据数据本身的特征从大量候选模型中自适应选择高性能基学习器,从而构建高效SEL模型,并对模型可解释性进行探索。

论文概要

202587日,鲁东大学麦类分子育种创新团队Theoretical and Applied Genetics发表了题为AdaptiveGS: an explainable genomic selection framework based on adaptive stacking ensemble machine learning的研究论文。该研究开发了一种自适应且可解释的数据驱动型基学习器选择策略——adaptiveGS,用于为堆叠GS框架预筛选最优的基学习器,提高小麦产量性状基因组估计育种值(Genomic estimated breeding valueGEBV)预测准确性。进一步引入SHAP (the SHapley Additive explanations)方法对adaptiveGS的结果进行解释,可识别与小麦产量性状高度相关的显著单核苷酸多态性(SNPs),即主效应,并阐释SNPs间的交互效应。该研究不仅丰富了小麦产量性状全基因组选择算法,也有望在粮食增产、育种芯片设计及可持续农业发展等方面发挥作用。

主要研究结果

1.PR指数基学习器选择策略有效提升堆叠集成机器学习预测能力

本文利用皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)构建PR指数,通过PR指数从7个(或自定义)机器学习模型中自动筛选出排名前3的模型作为基学习器(图2),取代以往研究中事先根据经验直接指定基学习器的方式,从而使得算法能够根据数据自身特征自适应筛选高性能基学习器,进而组建高效堆叠集成算法(图1),提升其预测能力。

2.基于PR指数的adaptiveGS框架显著提升动植物育种GEBVs预测精度

基于PR指数构建了adaptiveGS框架(图1),在包含小麦在内的4个动植物物种21个性状上,将adaptiveGS与其他13GS算法进行了比较。结果表明,adaptiveGS21个性状中的大多数上优于这13个模型,平均预测准确率(PCC)达到0.703,平均提高了14.4%(图4),展现出优异的预测准确性和稳健性。

3.基于SHAP技术的adaptiveGS框架有助于解释小麦产量性状关键SNPs

利用SHAP事后解释技术对adaptiveGS进行解释,并识别影响小麦产量性状变异的显著SNPs以及SNPs之间潜在的相互作用效应。结果表明,本研究提出的adaptiveGS算法有助于识别可能影响小麦产量性状的潜在显著SNP位点,并可使用SHAP方法直观展示每个SNP对小麦产量性状GEBV预测的贡献(图6,图7,图8)以及SNPs之间的潜在相互作用效应(图9)。

全文总结

在本研究中,我们开发了一种自适应且统一的堆叠集成机器学习全基因组选择框架,并设计了一种模型解释策略,以识别小麦产量性状的候选显著SNPs。针对基学习器选择中存在的不确定性问题,引入了基于皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)的PR指数,自动筛选最适配的基学习器构建堆叠基因组选择模型,该过程由输入的训练数据驱动,而非依赖用户经验,有助于为每一组表型和基因型数据“量身定制”精准的堆叠模型。将adaptiveGS与包括经典GS模型、机器学习和深度学习在内的13种模型的预测精度比较,发现adaptiveGS在大多数场景中优于所有13种模型。最后,通过SHAP值对adaptiveGS模型进行了解释,以提供GS研究中与特定性状相关的重要SNPs信息。本研究在有效提升GS模型小麦产量性状GEBV预测精度的同时,可较好地阐释影响小麦产量性状的若干关键SNPs,并为提升小麦产量、智能育种芯片设计以及推广到其他动植物育种领域等提供了理论依据和技术支撑。

http://www.hskmm.com/?act=detail&tid=39035

相关文章:

  • 台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解
  • if 语句
  • 数论专题小记
  • 机械臂和相机的9点标定原理
  • 遗传改良中的核心技术:交配设计
  • 《程序员修炼之道:从小工到专家》笔记1
  • 语言是火,视觉是光:论两种智能信号的宿命与人机交互的未来 - 教程
  • 书籍推荐 | 《数量遗传学》(王建康)
  • Plant Com | 一种新的多源数据(基因组、表型和跨环境)融合的基因组预测框架-GPS
  • 科普报告:分子标记辅助选择(MAS)育种
  • 作物遗传育种中的多亲本互交群体(MAGIC)
  • 联邦大型语言模型、多智能体大型语言模型是什么? - 详解
  • 一个用于自动化基因表达分析的多智能体框架GenoMAS
  • AI巨头动态:从OpenAI收购到Meta裁员,我们看到了什么?
  • 小麦锈病抗性全景图及其在育种设计中的应用
  • CF1896F
  • Nature Methods | 大语言模型基因集分析工具GeneAgent
  • 50年的玉米育种改良,是如何应对气候变化的?
  • 刷题日记—洛谷数组题单—幻方
  • 基因组选择(GS)如何加速作物遗传增益?
  • Nature Plants | 植物转录因子结合图谱,360个转录因子的近3000个全基因组结合位点图谱
  • 深入解析:3. 从0到上线:.NET 8 + ML.NET LTR 智能类目匹配实战--从业务到方案:消费类目智能匹配的整体设计
  • xyd 2025 S 模拟赛
  • 标题:AI巨头动态:从OpenAI的野心到Meta的裁员潮
  • Plant Com | 将基因编辑与组学、人工智能和先进农业技术相结合以提高作物产量
  • 作品目录
  • 推荐书籍 | 基因组遗传大数据分析方法
  • Python 潮流周刊#74:创下吉尼斯世界记录的 Python 编程课
  • 10.26保养
  • CCPC2024济南个人题解