当前位置: 首页 > news >正文

拜耳作物科学提出一种生物学引导的神经网络框架用于基因组选择(GS)

分享一篇2025年10月16日由拜耳旗下的拜耳作物科学公司在arxiv预印本上发表的文章:Biology-informed neural networks learn nonlinear representations from omics data to improve genomic prediction and interpretability。该研究提出了一种生物学引导的神经网络(biologically-informed neural networks,BINN)框架,用于提升作物基因组预测(GP)与选择(GS)的准确性和可解释性,并在玉米开花期和合成代谢网络中验证了其优越性能。BINN通过将生物学知识嵌入神经网络结构,在小样本、非线性、复杂调控关系的基因组预测任务中展现出显著优势。它不仅提升了预测精度,还提供了可解释的生物学洞察,为作物育种中的基因组选择、候选基因挖掘和基因编辑提供了新的技术路径。

背景与研究意义

  • 背景挑战
    • • 传统G2P(基因型到表型)模型(如GBLUP、RRBLUP)在预测复杂性状时表现有限,尤其在小样本(n < p)条件下。
    • • 虽然整合中间组学数据(如转录组、代谢组)可提升预测力,但这些数据在育种实践中往往不可用,限制了其应用。
  • 研究目标
    • • 提出一种仅在训练阶段使用组学数据推理阶段仅依赖基因型数据的BINN框架。
    • • 通过引入生物学先验知识(如通路结构、eQTL关系)作为网络结构约束,提升模型在稀疏数据下的预测能力和可解释性。

研究方法

1. BINN架构设计

BINN 是一种模块化、稀疏连接的前馈神经网络,其核心思想是将生物学知识(如基因-代谢物-表型关系)编码为网络结构约束:

  • 输入层:SNP基因型数据。
  • 中间层(Omics Layer)
    • • 每个节点代表一个生物学实体(如基因、代谢物)。
    • • 使用**二进制掩码(mask)**限定每个子网络只接收与其相关的输入(如eQTL关联的SNP)。
    • • 每个子网络是一个小型全连接网络,可建模非线性关系(如上位性)。
  • 残差网络:处理未被通路注释的SNP。
  • 整合网络:融合所有子网络输出,预测最终表型。
  • 训练策略
    • • 中间组学数据仅用于构建掩码和弱监督(可选),不用于推理
    • • 支持标准MSE损失和生物学引导的软约束损失(如Pearson相关性)。

图1:生物学引导的神经网络框架将领域知识嵌入以增强基因组预测能力并学习非线性生物学关系。 a) 传统的G2P模型仅使用基因型数据,导致大量功能性知识未被充分利用。BINN通过将经过整理的生物学信息(如RNA-seq(基因表达)、甲基化组学(DNA甲基化)、代谢组学、KEGG通路注释和蛋白质组学)以通路结构、调控先验和稀疏性约束的形式直接嵌入网络结构中,从而在不牺牲实用性的前提下提升预测准确性。 b) 展示了四种代表性场景,说明在分析基因组、转录组和表型组数据时,GWAS、TWAS和BINN各自的适用性。只有在BINN框架下,才允许在一般非线性条件下进行关联分析(前提是训练得到的BINN模型是准确的)。

2. 实验设计

文章在两个案例上验证了BINN的有效性:

案例

数据类型

表型

中间组学

生物学知识来源

案例1:玉米开花时间

真实数据

开花天数(anthesis/silking)

转录组(RNA-seq)

eQTL + Elastic Net选基因

案例2:拟南芥分枝

合成数据

芽萌发时间

代谢物(激素、糖)

ODE模型定义的因果路径

案例1方法细节:

  • • 使用Torres-Rodríguez等提供的玉米TWAS数据(693个自交系,7个亚群)。
  • • 通过ElasticNet筛选与开花时间相关的基因(约1000个),再进行eQTL映射,构建SNP→gene的稀疏连接掩码。
  • • 对比模型:GBLUP、Ridge Regression、BINN(G2B2P)、B2P(仅表达量预测)。

案例2方法细节:

  • • 基于Bertheloot等提出的植物分枝调控ODE模型,合成100,000个基因型-表型-代谢物数据。
  • • 模拟四种代谢物(auxin、sucrose、cytokinin、strigolactone)与表型(芽萌发时间)之间的非线性关系。
  • • 对比模型:Ridge Regression、FCN(全连接网络)、BINN(标准MSE与软约束损失)。

研究结果

1. 玉米开花时间预测(真实数据)

  • 预测精度
    • • BINN在所有亚群中均优于传统G2P模型(GBLUP、Ridge),Spearman相关系数提升高达56%
    • • 在**稀疏数据(训练集仅20%)**下,BINN仍保持稳定性能。
    • • 在留一亚群交叉验证中,BINN对SS、NSS、IDT等主流 heterotic groups 泛化能力强,但对热带、甜玉米等远缘群体性能下降。
  • 可解释性
    • • BINN通过敏感性分析识别出多个已知开花调控基因(如zcn8、zap1、zmm15)。
    • • 还发现一些未被TWAS/GWAS检测到的潜在非线性调控基因,提示其可挖掘隐藏生物学信号。

图2:BINN通过利用基因表达提升基因型到表型建模的预测精度与可解释性。 a) 基于转录组的BINN结构示意图:用SNP和基因表达数据进行特征选择,稀疏化输入与中间层连接。每个基因的SNP通过中间层通路子网络处理,输出再经非线性整合网络预测表型。G2P和B2P均为线性模型。 b) 密歇根州四个亚群抽雄天数预测值与实测值对比。 c) 内布拉斯加吐丝期预测Spearman相关分布。 d) 留一亚群交叉验证:训练时依次剔除一个亚群,测试其在其余六个亚群的吐丝期预测表现。 e) 四个高相关基因的BINN潜变量 vs 实测表达量。 f) 30个代表性基因(高相关15 + 低相关15)的表型扰动总量。 g) BINN选出的100个最重要基因(含zap1、zmm15、zcn14、zcn8)的表型扰动总量阈值图。

2. 拟南芥芽萌发预测(合成数据)

  • 预测精度
    • • 在小样本(n < p)条件下,BINN显著优于Ridge和FCN,MSE降低75%
    • • 随着样本量增加,BINN性能逐渐接近FCN,表明其在稀疏数据下具有更好的偏差-方差权衡
  • 软约束损失的效果
    • • 即使只有10%的代谢物标签,BINN-soft仍能达到与全标签BINN相当的预测精度。
    • • 表明极少量中间数据即可有效引导模型学习潜在生物学机制
  • 可解释性
    • • 标准BINN(无软约束)中,蔗糖(sucrose) latent variable 与真实值相关性最高(r ≈ 0.8),尽管未直接监督。
    • • 敏感性分析表明,蔗糖对表型影响最大,与已知生物学机制一致,验证BINN能自发学习关键生物学变量

图3:在稀疏数据(n < p)条件下,BINN显著优于基线模型。 a) 芽分枝网络BINN结构示意图:基因输入经四个生物学注释通路子网络(生长素A、蔗糖S、细胞分裂素CK、独脚金内酯SL)处理后,由整合器预测芽萌发时间。 b) 测试集MSE对比:RR、FCN、BINN-MSE、BINN-soft(100%、50%、10%中间标签)在500–20,000样本下的表现;n=1,600虚线划分稀疏/充足数据区。 c) 预测-实测表型散点:四个训练规模下RR(紫圆)、FCN(黑三角)、BINN(红方)的Pearson r。 d) 中间性状潜变量预测 vs 真实值:BINN-MSE(蓝)与BINN-soft(红)的散点及r。 e) 各中间性状扰动后的表型变化总量。

讨论与展望

  • BINN优势
    • 实用性强:训练阶段利用组学数据,推理阶段仅需基因型,适配现有GS流程。
    • 预测精度高:在小样本、复杂非线性关系中表现优于传统线性模型。
    • 可解释性好:通过敏感性分析可识别关键基因/代谢物,辅助功能基因组研究和基因编辑靶点选择。
  • 局限性与挑战
    • • 网络稀疏度需精细调节,过多或过少都会降低性能。
    • • 组学数据质量(如批次效应、组织特异性)会影响掩码构建。
    • • 当前仅测试了开花时间等简单性状,未来需拓展至更复杂的产量、抗逆等性状。
  • 未来方向
    • • 整合更多组学层(如蛋白组、表观组)与环境信息(如气候数据)。
    • • 探索不同拓扑结构(如并行、堆叠、交错BINN)以适应不同生物学背景。
    • • 结合基因组语言模型(gLMs)等功能注释工具,提升未注释基因的预测与建模能力。

后记

像拜耳这样的育种大厂也一直在做这种基础性研究,说明AI育种大势所趋,不容小觑。

如果童鞋们要系统入门基因组选择,近期中国农科院首席团队开设了一门基于机器学习和深度学习算法的全基因组选择与智能设计育种课程。详见:全基因组选择&智能设计育种全面升级,通过本文报名的朋友(扫以下二维码),课程结束后可联系小编免费加入“生物信息与育种”知识星球(价值199元),内含大量智能育种相关资源,欢迎一起交流学习。

http://www.hskmm.com/?act=detail&tid=39583

相关文章:

  • 如何利用AI挖掘基因?一个很好的水稻例子
  • 区间DP
  • android 基于okhttp的socket封装 - 实践
  • Kubernetes端口列表与安全分析
  • 《程序员修炼之道:从小工到专家》笔记2
  • [ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions
  • 2025 年 10 月门窗十大品牌榜单揭晓,专业制造与耐用售后口碑之选
  • 2025 年 10 月门窗十大品牌榜单揭晓,专业制造与安全定制口碑之选
  • 线段树理论
  • 最短路学习笔记
  • 语文_阅读_The power of curiosity in science_待读
  • 大学课堂“走神危机”,认真听讲能否破局?
  • 无符号整型左移33位
  • 以专注之姿,赴求知之约
  • 跨被动为主动:认真听讲,坚持实践
  • 认真听讲,是大学最好的修行
  • 《程序员修炼之道:从小工到专家》阅读笔记3
  • 20232328 2025-2026-1《网络与系统攻防技术》实验三实验报告
  • 英语_阅读_Meeting
  • 我的一个oier朋友
  • 磁盘格式化和LVM挂载
  • 2232
  • 123133
  • 1123
  • 研零学习笔记
  • 《程序员修炼之道:从小工到专家》阅读笔记2
  • 2025.10.24——1黄
  • 2025.10.26——1绿
  • 一期0. AI认知课/pytorch框架
  • 20251026 之所思 - 人生如梦