在中国,甲状腺结节患者并不少见——据报道,其在人群中的患病率高达65%。在临床决策前之前,通过细针穿刺(FNA)活检获取病理学证据,是最主要的辅助检查手段,其可靠性已获广泛认可。然而,问题在于,有15%至30%的穿刺样本会落入所谓 “不确定细胞学” 的灰色地带,病理报告既无法确认良性,也无法诊断恶性。这类结节在Bethesda分类系统中被归入III、IV、V类,其对应的恶性率分别约为13–30%、23–34%和67–83%。
面对这份不确定性,患者往往陷入两难境地:要么在缺乏明确术前诊断依据的情况下接受可能并不必要的手术切除,要么承受未知风险而选择持续随访。
对此,西湖大学医学院郭天南团队联合国内17家三甲医疗机构的临床研究人员,历时3年,纳入2072名患者,横跨11个城市,开展了一项前瞻性非干预性多中心研究。他们提出了一种名为ThyroProt的蛋白质组学诊断分类器,为改善甲状腺结节术前诊断的准确性提供了新的解决思路。3月10日,论文以 A targeted proteomics assay for the preoperative diagnosis of thyroid nodules 为题发表于 Cell Reports Medicine。

图1 论文截图

图2 ThyroProt 分类器流程图
01 术前诊断为何如此困难?
FNA作为术前诊断的主要手段,在大多数情况下能够提供可靠的细胞病理学依据。然而,在近三分之一的样本中,仅凭形态学观察无法有效区分良性和恶性病变,这时需要借助分子检测进行进一步判断。目前,已开发并应用于临床的基于DNA/RNA的分子诊断工具,包括Afirma和ThyroSeq等,均表现出优异的敏感性(分别达到100%和96.9%)。然而,这些工具主要是在欧美人群中开发和验证的,而亚洲人群在恶性肿瘤发生率、BRAF V600E突变频率以及临床管理规范等方面与西方存在显著差异,这使得直接应用这些工具时存在一定的局限性。
另一个核心矛盾在于:BRAF V600E突变是亚洲患者中最常见的甲状腺癌驱动突变,但在Bethesda III类结节中,其检出率仅为20–50%。因此,单靠突变检测可能会遗漏相当一部分恶性病例,从而使术前判断仍显得不够充分。
02 破局之道:让蛋白质 “开口说话”
ThyroProt的核心思路是将靶向质谱蛋白质定量与BRAF V600E突变检测相结合,同时考虑患者年龄与性别信息,构建一个多维度的整合分类模型。这一方法旨在为术前提供更可靠的良恶性判断依据。
标志物的发现源自团队前期基于实验室级高分辨质谱的非靶向蛋白质组学研究。通过对大规模样本的蛋白质组数据进行机器学习分析,从212个候选蛋白中识别出具有诊断价值的特征蛋白,并经过多轮筛选与验证,最终将模型精简至3个核心蛋白质标志物。在临床转化层面,研究团队将检测平台从此前仅适合实验室研究的高分辨质谱切换为临床可及的低分辨靶向质谱,并引入稳定同位素标记内标(AQUA肽),实现这三种蛋白的绝对定量,从而消除批次间系统误差。这一技术路线的转变,将液相梯度从60分钟压缩至8分钟,通量提升约8倍,使其在真实临床场景中具备良好的可操作性。
03 分类器性能
前瞻性测试集(322例)
在来自5家医疗机构的322例FNA样本中,ThyroProt的AUC达到0.94,总体诊断准确率为90.7%,敏感性84.8%,特异性98.6%,阳性预测值(PPV)98.7%,阴性预测值(NPV)82.9%(图2)。简而言之,如果模型判断为恶性,则有超过98%的概率是真正的恶性;而如果判断为良性,则约83%的情况是真正的良性。

图3 ThyroProt的构建与测试
在临床中最具挑战性的Bethesda III类结节队列(共25例,其中恶性17例、良性8例)中,ThyroProt的敏感性为82.4%,特异性为100%。8例良性结节均被准确识别,未出现假阳性。进一步分析显示,在整个测试集中出现的28例假阴性中,有27例术后证实为低分期、低风险癌,对临床决策的影响相对有限。
两个独立测试集的外部验证
为评估ThyroProt在全新临床环境中的泛化能力,研究团队在两家此前未参与模型开发的的独立医疗机构中开展了外部验证(图3)。第一个独立测试集纳入230例样本,ThyroProt的AUC为0.91,准确率85.7%,敏感性85.1%,特异性86.5%;在Bethesda III/IV类结节亚组(62例)中,AUC为0.93,准确率88.7%,阴性预测值(NPV)高达96.0%,提示阴性结果具有较强的术前排除价值。第二个独立测试集纳入51例样本, AUC为0.87,准确率84.3%,特异性94.1%,阳性预测值(PPV) 84.6%,NPV 84.2%。两套独立测试结果相互印证,显示该分类器在不同机构与样本来源下均能保持稳健的诊断效能。

图4 ThyroProt在独立测试集中的诊断性能
04 几点需要说明的局限性
这项研究设计严谨,但亦存在以下局限:其一,因纳入标准要求组织病理学确证,最终可用样本量显著低于初始采集,导致Bethesda III/IV子组的统计效能受限;其二,研究对象主要为中国患者,外推至其他种族人群(尤其欧美人群)的适用性仍需独立验证;其三,与PCR等成熟临床检测相比,靶向质谱在设备可及性与操作流程的标准化和普及度方面仍有差距,但研究者认为这不应成为否定其临床价值的理由。
05 从发现到转化:一条完整的方法论路径
这项研究的意义不止于ThyroProt的诊断性能,更在于示范了一条从基础发现到临床落地的完整转化路径:首先,以高分辨率质谱对大规模临床样本开展非靶向蛋白质组学解析,系统发掘候选诊断标志物;随后,经多轮机器学习筛选与多队列临床验证,将候选蛋白由212个收敛至3个;最终落地为可在临床可及的低分辨率质谱平台上实施的靶向绝对定量检测,并在真实世界的前瞻性多中心场景完成性能验证。这一路径贯通 “发现—验证—应用”,为类似疾病的转化研究提供了可复用的方法学范式。
ThyroProt也填补了长期空白:此前尚缺乏经前瞻性多中心验证、面向亚洲患者群体的蛋白质组学术前诊断分类器。其定位并非取代既有分子检测,而是为甲状腺结节的术前评估引入蛋白质层面的新维度,与基因组学工具形成互补,助力更精准的术前临床决策。
论文链接:https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(26)00081-9
西湖大学医学院博士后蔡雪,原西湖大学博士后孙耀庭(现为马克斯·普朗克研究所博士后),西湖大学医学院附属杭州市第一人民医院罗定存教授,中国医科大学附属第一医院张浩主任,复旦大学附属肿瘤医院魏文俊博士,同济大学医学院附属上海市第十人民医院张一峰主任为该研究共同第一作者。西湖大学医学院郭天南教授、复旦大学附属肿瘤医院王宇教授、西湖实验室朱怡博士,复旦大学中山医院徐辉雄教授,中国人民解放军总医院田文教授为该研究共同通讯作者。研究得到了国家重点研发计划、国家自然科学基金、上海市科学技术委员会等的支持。
在中国,甲状腺结节患者并不少见——据报道,其在人群中的患病率高达65%。在临床决策前之前,通过细针穿刺(FNA)活检获取病理学证据,是最主要的辅助检查手段,其可靠性已获广泛认可。然而,问题在于,有15%至30%的穿刺样本会落入所谓 “不确定细胞学” 的灰色地带,病理报告既无法确认良性,也无法诊断恶性。这类结节在Bethesda分类系统中被归入III、IV、V类,其对应的恶性率分别约为13–30%、23–34%和67–83%。
面对这份不确定性,患者往往陷入两难境地:要么在缺乏明确术前诊断依据的情况下接受可能并不必要的手术切除,要么承受未知风险而选择持续随访。
对此,西湖大学医学院郭天南团队联合国内17家三甲医疗机构的临床研究人员,历时3年,纳入2072名患者,横跨11个城市,开展了一项前瞻性非干预性多中心研究。他们提出了一种名为ThyroProt的蛋白质组学诊断分类器,为改善甲状腺结节术前诊断的准确性提供了新的解决思路。3月10日,论文以 A targeted proteomics assay for the preoperative diagnosis of thyroid nodules 为题发表于 Cell Reports Medicine。

图1 论文截图

图2 ThyroProt 分类器流程图
01 术前诊断为何如此困难?
FNA作为术前诊断的主要手段,在大多数情况下能够提供可靠的细胞病理学依据。然而,在近三分之一的样本中,仅凭形态学观察无法有效区分良性和恶性病变,这时需要借助分子检测进行进一步判断。目前,已开发并应用于临床的基于DNA/RNA的分子诊断工具,包括Afirma和ThyroSeq等,均表现出优异的敏感性(分别达到100%和96.9%)。然而,这些工具主要是在欧美人群中开发和验证的,而亚洲人群在恶性肿瘤发生率、BRAF V600E突变频率以及临床管理规范等方面与西方存在显著差异,这使得直接应用这些工具时存在一定的局限性。
另一个核心矛盾在于:BRAF V600E突变是亚洲患者中最常见的甲状腺癌驱动突变,但在Bethesda III类结节中,其检出率仅为20–50%。因此,单靠突变检测可能会遗漏相当一部分恶性病例,从而使术前判断仍显得不够充分。
02 破局之道:让蛋白质 “开口说话”
ThyroProt的核心思路是将靶向质谱蛋白质定量与BRAF V600E突变检测相结合,同时考虑患者年龄与性别信息,构建一个多维度的整合分类模型。这一方法旨在为术前提供更可靠的良恶性判断依据。
标志物的发现源自团队前期基于实验室级高分辨质谱的非靶向蛋白质组学研究。通过对大规模样本的蛋白质组数据进行机器学习分析,从212个候选蛋白中识别出具有诊断价值的特征蛋白,并经过多轮筛选与验证,最终将模型精简至3个核心蛋白质标志物。在临床转化层面,研究团队将检测平台从此前仅适合实验室研究的高分辨质谱切换为临床可及的低分辨靶向质谱,并引入稳定同位素标记内标(AQUA肽),实现这三种蛋白的绝对定量,从而消除批次间系统误差。这一技术路线的转变,将液相梯度从60分钟压缩至8分钟,通量提升约8倍,使其在真实临床场景中具备良好的可操作性。
03 分类器性能
前瞻性测试集(322例)
在来自5家医疗机构的322例FNA样本中,ThyroProt的AUC达到0.94,总体诊断准确率为90.7%,敏感性84.8%,特异性98.6%,阳性预测值(PPV)98.7%,阴性预测值(NPV)82.9%(图2)。简而言之,如果模型判断为恶性,则有超过98%的概率是真正的恶性;而如果判断为良性,则约83%的情况是真正的良性。

图3 ThyroProt的构建与测试
在临床中最具挑战性的Bethesda III类结节队列(共25例,其中恶性17例、良性8例)中,ThyroProt的敏感性为82.4%,特异性为100%。8例良性结节均被准确识别,未出现假阳性。进一步分析显示,在整个测试集中出现的28例假阴性中,有27例术后证实为低分期、低风险癌,对临床决策的影响相对有限。
两个独立测试集的外部验证
为评估ThyroProt在全新临床环境中的泛化能力,研究团队在两家此前未参与模型开发的的独立医疗机构中开展了外部验证(图3)。第一个独立测试集纳入230例样本,ThyroProt的AUC为0.91,准确率85.7%,敏感性85.1%,特异性86.5%;在Bethesda III/IV类结节亚组(62例)中,AUC为0.93,准确率88.7%,阴性预测值(NPV)高达96.0%,提示阴性结果具有较强的术前排除价值。第二个独立测试集纳入51例样本, AUC为0.87,准确率84.3%,特异性94.1%,阳性预测值(PPV) 84.6%,NPV 84.2%。两套独立测试结果相互印证,显示该分类器在不同机构与样本来源下均能保持稳健的诊断效能。

图4 ThyroProt在独立测试集中的诊断性能
04 几点需要说明的局限性
这项研究设计严谨,但亦存在以下局限:其一,因纳入标准要求组织病理学确证,最终可用样本量显著低于初始采集,导致Bethesda III/IV子组的统计效能受限;其二,研究对象主要为中国患者,外推至其他种族人群(尤其欧美人群)的适用性仍需独立验证;其三,与PCR等成熟临床检测相比,靶向质谱在设备可及性与操作流程的标准化和普及度方面仍有差距,但研究者认为这不应成为否定其临床价值的理由。
05 从发现到转化:一条完整的方法论路径
这项研究的意义不止于ThyroProt的诊断性能,更在于示范了一条从基础发现到临床落地的完整转化路径:首先,以高分辨率质谱对大规模临床样本开展非靶向蛋白质组学解析,系统发掘候选诊断标志物;随后,经多轮机器学习筛选与多队列临床验证,将候选蛋白由212个收敛至3个;最终落地为可在临床可及的低分辨率质谱平台上实施的靶向绝对定量检测,并在真实世界的前瞻性多中心场景完成性能验证。这一路径贯通 “发现—验证—应用”,为类似疾病的转化研究提供了可复用的方法学范式。
ThyroProt也填补了长期空白:此前尚缺乏经前瞻性多中心验证、面向亚洲患者群体的蛋白质组学术前诊断分类器。其定位并非取代既有分子检测,而是为甲状腺结节的术前评估引入蛋白质层面的新维度,与基因组学工具形成互补,助力更精准的术前临床决策。
论文链接:https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(26)00081-9
西湖大学医学院博士后蔡雪,原西湖大学博士后孙耀庭(现为马克斯·普朗克研究所博士后),西湖大学医学院附属杭州市第一人民医院罗定存教授,中国医科大学附属第一医院张浩主任,复旦大学附属肿瘤医院魏文俊博士,同济大学医学院附属上海市第十人民医院张一峰主任为该研究共同第一作者。西湖大学医学院郭天南教授、复旦大学附属肿瘤医院王宇教授、西湖实验室朱怡博士,复旦大学中山医院徐辉雄教授,中国人民解放军总医院田文教授为该研究共同通讯作者。研究得到了国家重点研发计划、国家自然科学基金、上海市科学技术委员会等的支持。
