AlphaDIA:打通DIA蛋白质组学分析的“任督二脉”

View :13

在生命科学研究里,“蛋白质组学”就像解读生命密码的钥匙——它研究蛋白质及其翻译过程、亚型组成、翻译后修饰(PTM)和降解机制,揭开疾病发生、细胞活动的底层逻辑。在自下而上的蛋白质组学研究中,解决肽段复杂性是基于质谱(MS)的蛋白质组学数据采集和生物信息学分析的核心问题。相比数据依赖采集(DDA),数据非依赖采集(DIA)采用相对较宽的隔离窗口,无偏倚地采集窗口内的所有肽段,动态范围大大提高,实现了更高深度的蛋白质组鉴定,成为单细胞蛋白质组、大规模样本分析的“主力军”。

DIA虽好,却一直有三座“大山”让人头疼

♦ 数据复杂难处理:新一代TOF检测器能捕捉到 “单分子级” 信号,但原始数据里全是无清晰峰形的 “杂乱信号”,传统方法会弄丢关键信息;

♦ 建库太麻烦:以前做DIA得先做DDA预实验,建 “样本专属经验谱库”,耗时耗力还没法通用;

♦ 工具不灵活:主流分析工具多是闭源的,遇到新型仪器(如timsTOF)或未知蛋白质修饰(PTM),直接 “水土不服”。

2025年10月21日,针对DIA分析的“老大难”,Matthias Mann团队在《Nature Biotechnology》发表了题为“AlphaDIA enables DIA transfer learning for feature-free proteomics”的文章,推出开源的AlphaDIA的搜库软件,用“无特征处理 + 深度学习迁移学习”的方式搬平DIA数据解析的三座大山。

一、AlphaDIA的工作流程

Figure 1

AlphaDIA是一款用于DIA搜索的模块化开源框架。该框架基于科学Python工具栈和 alphaPept生态系统构建,支持灵活的搜索策略,可通过Python API、Jupyter notebooks、命令行界面或易于安装的图形用户界面访问。AlphaDIA涵盖了从原始文件到蛋白定量报告的完整工作流程,能够处理所有主流厂商的文件及专有格式。其设计初衷是实现大型队列的“一站式处理”,可在Windows、Linux和Mac系统上原生运行,也能通过Slurm 或Docker以分布式方式在云端部署。

二、AlphaDIA的三大核心突破,每一个都很能打

突破1:“无特征处理”,让TOF数据不再“浪费”

Figure 1

AlphaDIA跳过传统的“峰检测/质心化/特征边界”步骤,直接对原始多维信号(保留时间、离子迁移率、碎片离子质荷比及强度)做卷积核聚合与机器学习打分,先整证据后定峰组。
首先,AlphaDIA筛选出所有能为该前体提供证据的一级质谱(MS1)和二级质谱(MS2)谱图(图1b);随后,采用图谱空间的密集表征对潜在峰组候选物进行评分(图1c、d),算法会通过已学习的卷积核,跨保留时间、离子迁移率和碎片整合信号;在收集完所有这些证据后,再确定离散峰组(图1e)。通过这种方式,即使在timsTOF等不连续以及峰形不规则的数据中,也能获得稳健鉴定。

突破2:深度学习 + 迁移学习,不用经验谱库也能精准分析

① 鉴定准:校准+ 竞争,让假阳性 “无处遁形”

Figure 2

AlphaDIA用全连接神经网络给肽段 “打分”,还会通过算法修正仪器的系统偏差。同时,它还能确保 “一个碎片只对应一个肽段”,避免重复计数,鉴定精度直接拉满。

具体而言,每个峰组由一个含多达47个特征的全连接神经网络(NN)进行评分(图2a)。利用神经网络预测的概率计算基于计数的假发现率(FDR),以此控制前体的假阳性鉴定(图2b、c)。对于保留时间、离子迁移率和质荷比等实测属性,会在高置信度前体子集上,通过带有多项式基函数的非线性局部加权散点平滑(LOESS)回归,迭代校准至观测数据(图2d-f)。
为评估该算法性能,作者使用此前发表的HeLa细胞裂解液在timsTOF Ultra上采用dia-PASEF模式采集的数据进行评估,该算法可鉴定出超过73,000个具有独特序列和电荷的前体,对应近6,800个蛋白组(图2g-i)。在无标记定量(LFQ)方面,蛋白组的中位变异系数(CV)为7.7%,且重复样本间的皮尔逊相关系数(r)>0.99(图2j、k)。这表明AlphaDIA对复杂蛋白质混合物进行搜索和定量时具有出色的覆盖深度与定量精度。

②不用建库:靠预测谱库搞定分析

Figure 5

以前做DIA得建“经验谱库”,AlphaDIA 结合团队之前开发的AlphaPeptDeep(一个肽段属性预测工具),能直接构建“预测谱库”,省时又通用。

借助预测谱库,AlphaDIA包含谱库优化与定量两步搜索流程(图5a)。为进行基准测试,作者采集了大量HeLa样本,并使用包含360万个胰蛋白酶解前体的AlphaPeptDeep预测谱库进行搜索。结果显示,AlphaDIA平均可鉴定出超过120,000个前体,性能与其他测试搜索引擎相当甚至更优(图5b)。值得注意的是,在60-SPD方法(21分钟)下,采用启发式分组可鉴定出9,800个蛋白组,未分组时可鉴定出近8,600个蛋白(图5d)。通过添加拟南芥谱库,验证了两步流程的FDR控制效果(图5f)。在不同搜索引擎的比较方面,AlphaDIA鉴定的独特肽段数量最多,这体现为更高的序列覆盖率(图5g-h)。在定量准确性方面,全预测谱库搜索结合directLFQ算法,能以出色的精度与准确性重现预期比例(图5i)。

③适配性强:迁移学习搞定 “未知修饰”

Figure 6

蛋白质的翻译后修饰(PTM)是研究难点,因为不同修饰会改变肽段的“行为”。AlphaDIA的“DIA 迁移学习”能让算法“自己适配”:用初始分析结果训练模型,让模型学会仪器和实验的 “专属特性”,哪怕是没见过的 PTM,也能精准解析。

具体而言,作者将深度学习预测与搜索引擎紧密整合,让模型自主适配这些差异——作者将这种方法称为“DIA迁移学习”。首先通过可靠鉴定得到前体及其谱图,并将其收集为训练数据集;随后,在该实验特异性训练数据集上,对保留时间、碎裂图谱与电荷的通用预训练模型进行微调(图6a、b),最终得到的定制模型。为评估迁移学习的潜力,作者首先将其应用于二甲基化HeLa肽段数据集(图6c)。结果显示,迁移学习将RT预测R²从0.69提升至0.99、RT误差中位数从317s降到11s、谱图相关中位数从0.5升到0.85;最终前体数从65k提升到96k(+48%)、蛋白到8,613(+25%)(图6d-i)。

突破3:跨平台 “通吃”,主流仪器都能搭

Figure 3

不管是timsTOF的synchro-PASEF模式、Orbitrap的可变窗口DIA,还是Sciex的SWATH数据,AlphaDIA都能轻松处理。AlphaDIA结合 alphaRaw 的高效读写,对目标前体收集所有同步扫描(synchro scans),并以其同位素分布作先验(图3a)。基于同位素的质量与丰度,作者对四极杆扫描/传输函数进行建模,生成跨各次同步扫描的预期强度分布模板矩阵(图3b-c)。将观测到的碎片强度与模板进行匹配比较,作为深度学习鉴定评分的一部分证据(图3d)。作者把该处理策略扩展到其他平台与采集方式:例如在无离子迁移的四极杆–Orbitrap 可变窗口DIA中,AlphaDIA会选取所有对目标前体提供证据的有效MS2扫描(图3e),先确定离散峰组候选(图3f),再结合 AlphaPeptDeep 的预测谱图进行细化评分(图3g)。
此外,AlphaDIA能够处理轨道阱(Orbitrap)与Orbitrap Astral仪器产生的宽窗口、窄窗口、可变窗口或重叠窗口DIA数据,同样也能处理Sciex SWATH数据。

三、性能有多强?比主流工具更能打

Figure 4

在小鼠脑膜蛋白+酵母复杂背景基准数据上(QE-HF与timsTOF),AlphaDIA鉴定的蛋白组数量与DIA-NN、Spectronaut、MaxDIA相比,AlphaDIA鉴定的蛋白组数量持平或更优,蛋白质鉴定准确性和蛋白质定量CV均相当。(图4a–d)。采用拟南芥谱库做外部校准,即使拟南芥谱库占比达到100%也能在设定FDR下维持严格的蛋白/前体层面假阳性率(图4e–f)。
总之,AlphaDIA以开放、可扩展、统计严谨的框架,解决了DIA从复杂原始信号处理到跨平台适配再到未知PTM解析的关键痛点,对单细胞蛋白质组学、大队列临床样本与PTM发现等前沿应用尤具价值。

原文链接:https://doi.org/10.1038/s41587-025-02791-w

代码仓库:github.com/MannLabs/alphadia

在生命科学研究里,“蛋白质组学”就像解读生命密码的钥匙——它研究蛋白质及其翻译过程、亚型组成、翻译后修饰(PTM)和降解机制,揭开疾病发生、细胞活动的底层逻辑。在自下而上的蛋白质组学研究中,解决肽段复杂性是基于质谱(MS)的蛋白质组学数据采集和生物信息学分析的核心问题。相比数据依赖采集(DDA),数据非依赖采集(DIA)采用相对较宽的隔离窗口,无偏倚地采集窗口内的所有肽段,动态范围大大提高,实现了更高深度的蛋白质组鉴定,成为单细胞蛋白质组、大规模样本分析的“主力军”。

DIA虽好,却一直有三座“大山”让人头疼

♦ 数据复杂难处理:新一代TOF检测器能捕捉到 “单分子级” 信号,但原始数据里全是无清晰峰形的 “杂乱信号”,传统方法会弄丢关键信息;

♦ 建库太麻烦:以前做DIA得先做DDA预实验,建 “样本专属经验谱库”,耗时耗力还没法通用;

♦ 工具不灵活:主流分析工具多是闭源的,遇到新型仪器(如timsTOF)或未知蛋白质修饰(PTM),直接 “水土不服”。

2025年10月21日,针对DIA分析的“老大难”,Matthias Mann团队在《Nature Biotechnology》发表了题为“AlphaDIA enables DIA transfer learning for feature-free proteomics”的文章,推出开源的AlphaDIA的搜库软件,用“无特征处理 + 深度学习迁移学习”的方式搬平DIA数据解析的三座大山。

一、AlphaDIA的工作流程

Figure 1

AlphaDIA是一款用于DIA搜索的模块化开源框架。该框架基于科学Python工具栈和 alphaPept生态系统构建,支持灵活的搜索策略,可通过Python API、Jupyter notebooks、命令行界面或易于安装的图形用户界面访问。AlphaDIA涵盖了从原始文件到蛋白定量报告的完整工作流程,能够处理所有主流厂商的文件及专有格式。其设计初衷是实现大型队列的“一站式处理”,可在Windows、Linux和Mac系统上原生运行,也能通过Slurm 或Docker以分布式方式在云端部署。

二、AlphaDIA的三大核心突破,每一个都很能打

突破1:“无特征处理”,让TOF数据不再“浪费”

Figure 1

AlphaDIA跳过传统的“峰检测/质心化/特征边界”步骤,直接对原始多维信号(保留时间、离子迁移率、碎片离子质荷比及强度)做卷积核聚合与机器学习打分,先整证据后定峰组。
首先,AlphaDIA筛选出所有能为该前体提供证据的一级质谱(MS1)和二级质谱(MS2)谱图(图1b);随后,采用图谱空间的密集表征对潜在峰组候选物进行评分(图1c、d),算法会通过已学习的卷积核,跨保留时间、离子迁移率和碎片整合信号;在收集完所有这些证据后,再确定离散峰组(图1e)。通过这种方式,即使在timsTOF等不连续以及峰形不规则的数据中,也能获得稳健鉴定。

突破2:深度学习 + 迁移学习,不用经验谱库也能精准分析

① 鉴定准:校准+ 竞争,让假阳性 “无处遁形”

Figure 2

AlphaDIA用全连接神经网络给肽段 “打分”,还会通过算法修正仪器的系统偏差。同时,它还能确保 “一个碎片只对应一个肽段”,避免重复计数,鉴定精度直接拉满。

具体而言,每个峰组由一个含多达47个特征的全连接神经网络(NN)进行评分(图2a)。利用神经网络预测的概率计算基于计数的假发现率(FDR),以此控制前体的假阳性鉴定(图2b、c)。对于保留时间、离子迁移率和质荷比等实测属性,会在高置信度前体子集上,通过带有多项式基函数的非线性局部加权散点平滑(LOESS)回归,迭代校准至观测数据(图2d-f)。
为评估该算法性能,作者使用此前发表的HeLa细胞裂解液在timsTOF Ultra上采用dia-PASEF模式采集的数据进行评估,该算法可鉴定出超过73,000个具有独特序列和电荷的前体,对应近6,800个蛋白组(图2g-i)。在无标记定量(LFQ)方面,蛋白组的中位变异系数(CV)为7.7%,且重复样本间的皮尔逊相关系数(r)>0.99(图2j、k)。这表明AlphaDIA对复杂蛋白质混合物进行搜索和定量时具有出色的覆盖深度与定量精度。

②不用建库:靠预测谱库搞定分析

Figure 5

以前做DIA得建“经验谱库”,AlphaDIA 结合团队之前开发的AlphaPeptDeep(一个肽段属性预测工具),能直接构建“预测谱库”,省时又通用。

借助预测谱库,AlphaDIA包含谱库优化与定量两步搜索流程(图5a)。为进行基准测试,作者采集了大量HeLa样本,并使用包含360万个胰蛋白酶解前体的AlphaPeptDeep预测谱库进行搜索。结果显示,AlphaDIA平均可鉴定出超过120,000个前体,性能与其他测试搜索引擎相当甚至更优(图5b)。值得注意的是,在60-SPD方法(21分钟)下,采用启发式分组可鉴定出9,800个蛋白组,未分组时可鉴定出近8,600个蛋白(图5d)。通过添加拟南芥谱库,验证了两步流程的FDR控制效果(图5f)。在不同搜索引擎的比较方面,AlphaDIA鉴定的独特肽段数量最多,这体现为更高的序列覆盖率(图5g-h)。在定量准确性方面,全预测谱库搜索结合directLFQ算法,能以出色的精度与准确性重现预期比例(图5i)。

③适配性强:迁移学习搞定 “未知修饰”

Figure 6

蛋白质的翻译后修饰(PTM)是研究难点,因为不同修饰会改变肽段的“行为”。AlphaDIA的“DIA 迁移学习”能让算法“自己适配”:用初始分析结果训练模型,让模型学会仪器和实验的 “专属特性”,哪怕是没见过的 PTM,也能精准解析。

具体而言,作者将深度学习预测与搜索引擎紧密整合,让模型自主适配这些差异——作者将这种方法称为“DIA迁移学习”。首先通过可靠鉴定得到前体及其谱图,并将其收集为训练数据集;随后,在该实验特异性训练数据集上,对保留时间、碎裂图谱与电荷的通用预训练模型进行微调(图6a、b),最终得到的定制模型。为评估迁移学习的潜力,作者首先将其应用于二甲基化HeLa肽段数据集(图6c)。结果显示,迁移学习将RT预测R²从0.69提升至0.99、RT误差中位数从317s降到11s、谱图相关中位数从0.5升到0.85;最终前体数从65k提升到96k(+48%)、蛋白到8,613(+25%)(图6d-i)。

突破3:跨平台 “通吃”,主流仪器都能搭

Figure 3

不管是timsTOF的synchro-PASEF模式、Orbitrap的可变窗口DIA,还是Sciex的SWATH数据,AlphaDIA都能轻松处理。AlphaDIA结合 alphaRaw 的高效读写,对目标前体收集所有同步扫描(synchro scans),并以其同位素分布作先验(图3a)。基于同位素的质量与丰度,作者对四极杆扫描/传输函数进行建模,生成跨各次同步扫描的预期强度分布模板矩阵(图3b-c)。将观测到的碎片强度与模板进行匹配比较,作为深度学习鉴定评分的一部分证据(图3d)。作者把该处理策略扩展到其他平台与采集方式:例如在无离子迁移的四极杆–Orbitrap 可变窗口DIA中,AlphaDIA会选取所有对目标前体提供证据的有效MS2扫描(图3e),先确定离散峰组候选(图3f),再结合 AlphaPeptDeep 的预测谱图进行细化评分(图3g)。
此外,AlphaDIA能够处理轨道阱(Orbitrap)与Orbitrap Astral仪器产生的宽窗口、窄窗口、可变窗口或重叠窗口DIA数据,同样也能处理Sciex SWATH数据。

三、性能有多强?比主流工具更能打

Figure 4

在小鼠脑膜蛋白+酵母复杂背景基准数据上(QE-HF与timsTOF),AlphaDIA鉴定的蛋白组数量与DIA-NN、Spectronaut、MaxDIA相比,AlphaDIA鉴定的蛋白组数量持平或更优,蛋白质鉴定准确性和蛋白质定量CV均相当。(图4a–d)。采用拟南芥谱库做外部校准,即使拟南芥谱库占比达到100%也能在设定FDR下维持严格的蛋白/前体层面假阳性率(图4e–f)。
总之,AlphaDIA以开放、可扩展、统计严谨的框架,解决了DIA从复杂原始信号处理到跨平台适配再到未知PTM解析的关键痛点,对单细胞蛋白质组学、大队列临床样本与PTM发现等前沿应用尤具价值。

原文链接:https://doi.org/10.1038/s41587-025-02791-w

代码仓库:github.com/MannLabs/alphadia
问询(英文)

公众号