当前位置: 首页 > news >正文

一个用于自动化基因表达分析的多智能体框架GenoMAS

2025年7月,伊利诺伊大学香槟分校和加州大学圣地亚哥分校的研究团队在预印本平台arXiv发表了题为GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis的论文。该研究提出了一种基于多智能体的框架GenoMAS,用于自动化基因表达分析。GenoMAS通过六种专门化的大型语言模型(LLM)智能体协作,动态生成、验证和执行代码,显著提升了分析效率和准确性。在GenoTEX基准测试中,其性能超越现有最佳方法,数据预处理和基因识别任务分别提升10.61%和16.85%。这一成果为生物医学研究提供了高效、可靠的分析工具,推动了科学发现自动化的前沿发展。

背景与意义

  • 问题背景:基因表达分析是生物医学研究的核心任务,但传统流程依赖人工编写复杂代码,面临以下挑战:
    • • 原始数据结构复杂(如GEO/TCGA格式不统一、元数据非结构化);
    • • 预处理步骤繁琐(如探针映射、批次效应校正、缺失值处理);
    • • 需要跨学科知识(生物信息学+临床医学+统计学);
    • • 现有自动化工具要么过于僵化(固定流程),要么过于自由(通用Agent无法保证科学严谨性)。
  • 研究意义:GenoMAS 提出一种多Agent协作的编程驱动框架,将LLM视为“可协作的科学家”,通过代码生成、审查、修正的闭环机制,实现端到端、可解释、可复现的基因-表型关联分析,填补“通用AI”与“科学计算严谨性”之间的鸿沟。

分析方法

模块

描述

多Agent架构

6个角色明确的LLM Agent:
① PI Agent:全局协调;
② 2个Data Engineer(GEO/TCGA):数据预处理;
③ Statistician:统计建模;
④ Code Reviewer:代码质量审查;
⑤ Domain Expert:生物学知识支持。

异构LLM组合

不同Agent使用不同模型(Claude、OpenAI o3、Gemini等),发挥各自优势(代码生成/推理/医学知识)。

Guided Planning

将复杂任务分解为“Action Units”(原子化代码步骤),支持:
• 动态选择下一步;
• 回溯修正错误;
• 跳过不适用的步骤。

代码生成与审查

三阶段循环:
① 代码生成 → ② 独立审查(技术/领域) → ③ 修正迭代,最多3轮。

记忆与复用

成功代码片段存入“动态记忆”,后续任务可复用,平均节省57.8分钟/50个数据集。

通信协议

基于类型化消息传递(如CODE_REVIEW_REQUEST、DOMAIN_CONSULT_RESPONSE),避免循环依赖。

主要结果

1. 端到端性能领先

  • GenoTEX基准测试(1384个基因-表型任务):
    • F1 = 60.48%(↑16.85% vs. 前最佳GenoAgent);
    • AUROC = 0.81(↑0.17);
    • API成本降低44.7%
    • 成功率98.78%(vs. 其他Agent <90%)。

2. 消融实验验证关键设计

移除模块

性能下降

说明

无Guided Planning

F1↓9.21%

固定流程无法处理边缘案例

无Domain Expert

F1↓12.91%

生物学知识缺失导致错误分类

仅1轮审查

F1↓13.87%

迭代修正对鲁棒性至关重要

无代码审查

F1↓35.5%

缺乏质量控制导致大量错误

3. 子任务表现

  • 数据预处理:CSC(复合相似性相关性)达91.15%(远高于基线)。
  • 临床特征提取:因数据异构性,CSC仅32.61%,被识别为瓶颈。
  • 批次效应校正:加入后F1从69.64%→95.26%,证明统计严谨性不可或缺。

4. 自主行为案例

  • 自动重构:当调试无效时,Agent会重写整个模块(如GSE98578)。
  • 错误终止:发现数据缺失时主动停止任务(如GSE125771无表型信息)。
  • 跨步骤修正:遗忘步骤后回溯补全(如GSE123088的临床特征提取)。

讨论与未来方向

优势总结

  • 科学严谨性:通过Guided Planning + 多轮审查,避免通用Agent的“黑盒”错误。
  • 可解释性:Agent自动生成结构化日志(INFO/WARNING/ERROR),便于人工审计。
  • 可扩展性:异构LLM + 动态记忆,适配不同数据平台(GEO/TCGA/RNA-seq/芯片)。
  • 鲁棒性:能处理缺失值、格式错误、命名冲突等真实数据问题。

局限性

  • 临床数据瓶颈:非结构化临床信息提取仍依赖专家知识。
  • 计算成本:多Agent+多轮LLM调用开销较大(但低于人工专家)。
  • 模型依赖:需访问高性能LLM(如Claude 4、Gemini 2.5 Pro)。

未来方向

  • 多模态扩展:整合单细胞、表观组、蛋白质组数据。
  • 主动学习:通过Agent反馈改进基因-疾病知识库。
  • 开放领域迁移:将框架应用于材料科学、气候建模等其他科学计算领域。

总结

GenoMAS 通过“多Agent协作编程”重新定义科学自动化,在基因表达分析中实现高准确率、低成本、可解释的端到端流程,为AI驱动的生物医学发现提供了可复用的范式。

添加小编微信,拉您进入生信AI育种群交流。

http://www.hskmm.com/?act=detail&tid=39018

相关文章:

  • AI巨头动态:从OpenAI收购到Meta裁员,我们看到了什么?
  • 小麦锈病抗性全景图及其在育种设计中的应用
  • CF1896F
  • Nature Methods | 大语言模型基因集分析工具GeneAgent
  • 50年的玉米育种改良,是如何应对气候变化的?
  • 刷题日记—洛谷数组题单—幻方
  • 基因组选择(GS)如何加速作物遗传增益?
  • Nature Plants | 植物转录因子结合图谱,360个转录因子的近3000个全基因组结合位点图谱
  • 深入解析:3. 从0到上线:.NET 8 + ML.NET LTR 智能类目匹配实战--从业务到方案:消费类目智能匹配的整体设计
  • xyd 2025 S 模拟赛
  • 标题:AI巨头动态:从OpenAI的野心到Meta的裁员潮
  • Plant Com | 将基因编辑与组学、人工智能和先进农业技术相结合以提高作物产量
  • 作品目录
  • 推荐书籍 | 基因组遗传大数据分析方法
  • Python 潮流周刊#74:创下吉尼斯世界记录的 Python 编程课
  • 10.26保养
  • CCPC2024济南个人题解
  • 数据采集作业1
  • Python 潮流周刊#124:理性看待 GIL 的移除
  • OpenAI推出内置ChatGPT的Atlas浏览器:重新定义网页浏览体验
  • 数据清洗
  • 10.25
  • 102302104刘璇-数据采集与融合技术实践作业1
  • 102302110高悦作业1
  • 2025.10.23 模拟赛
  • 刷题日记—洛谷循环题单 1.数学思想在算法题中的应用: 2.回文数的判定:
  • Day23-C:\Users\Lenovo\Desktop\note\code\JavaSE\Basic\src\com\InOut
  • 【题解】洛谷P14308 【MX-S8-T1】斐波那契螺旋
  • MAC地址类型速记
  • 《程序员修炼之道》阅读笔记3