小罗碎碎念
在医学AI领域,当前的数字病理分析方法存在计算效率低、可扩展性差以及解释性不足等问题,而新出现的病理学多模态大语言模型在生物标志物预测方面表现也不尽人意。在此背景下,这篇文章提出了EAGLE深度学习框架,旨在解决这些难题,推动人工智能在病理学中的应用。
EAGLE框架模仿病理学家的诊断策略,通过CHIEF进行全局组织表征和引导性切片选择,再利用Virchow2从选定切片中提取高质量特征。文章对EAGLE进行了全面的评估,在涵盖四种癌症类型的31项任务中,将其与领先的基础模型进行对比,并开展了消融实验。
结果显示,EAGLE在多项评估指标上表现优异,计算效率大幅提升,处理一张幻灯片仅需2.27秒,计算时间比现有模型减少99%以上,在数据稀缺场景下也展现出良好的适应性。
这篇文章的研究成果为医学AI研究人员提供了新的思路和方法。EAGLE框架的高效性和良好性能,为后续开发更先进的病理图像分析模型奠定了基础。不过,文章也指出EAGLE仍需进一步在更多罕见病理上进行大规模验证,未来研究可探索其与患者特定数据的融合,从而更好地服务于临床诊断和研究。
交流群
欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。
目前小罗全平台关注量52,000+
,交流群总成员1100+
,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业
,即可邀您入群。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、文献概述
“ A deep learning framework for efficient pathology image analysis”发表于Nature Medicine,提出EAGLE(Efficient Approach for Guided Local Examination)深度学习框架,旨在解决当前病理图像分析方法计算效率低等问题,推动人工智能在病理学领域的应用。
- 研究背景:人工智能助力从高分辨率全切片图像(WSIs)提取临床信息,但现有方法计算效率低、可扩展性差、解释性不足,多模态大语言模型(MLLMs)在生物标志物预测方面表现欠佳,因此需要新的解决方案。
- 研究方法
- EAGLE框架:融合CHIEF(用于全局组织表征和引导切片选择)和Virchow2(用于从选定切片提取详细特征),通过三步处理WSIs,即CTransPath切片特征提取、CHIEF切片选择、Virchow2对25个选定切片进行详细特征提取,最终生成患者级别的统一表示。
- 实验设计:定义形态学、生物标志物和预后三类任务,使用TCGA数据训练模型,在多个外部队列上进行验证,采用五折交叉验证评估模型性能,对比多种模型并进行消融实验。
- 实验结果
- 性能优势:在31项任务中,EAGLE与TITAN平均受试者工作特征曲线下面积(AUROC)得分最高,分别为0.742和0.740;EAGLE在生物标志物预测任务上表现出色,在乳腺癌、结直肠癌和胃癌类型中得分最高。
- 消融实验:确定关键因素,如特定的切片选择、幻灯片级编码和最佳放大倍数对模型准确性至关重要;选择25个切片时模型性能最佳,且同等加权这25个切片可平衡效率和可解释性。
- 效率与数据稀缺场景:EAGLE处理一张幻灯片仅需2.27秒,计算时间比现有模型减少99%以上;在数据稀缺场景下,EAGLE表现优异,能在有限数据下有效训练模型并发现稀有生物标志物。
- 通用性和可解释性:EAGLE通过选择少量高信息切片生成紧凑的幻灯片或患者级嵌入,提高了通用性和透明度,减少了伪影干扰,有助于临床决策和下游分析。
- 与MLLMs比较:在少样本分类任务中,EAGLE结合逻辑回归模型在非小细胞肺癌亚型分类、结直肠癌微卫星不稳定性预测和乳腺癌雌激素受体表达预测等任务上优于GPT-4o。
- 研究结论:EAGLE框架显著提高计算效率,在多种评估指标上表现出色,尤其在生物标志物预测方面优势明显;其可解释性和通用性为临床应用和多组学研究提供支持,但仍需大规模验证,未来可探索与患者特定数据的整合。
二、方法分析
2-1:数据集
本研究中使用的所有模型,除非特别说明,均仅在TCGA全切片图像(WSIs)上训练,包括肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、结直肠癌(CRC)、胃腺癌(STAD)和乳腺癌(BRCA)的组织病理学数据。
外部验证在CPTAC(包括2018年和2020年的CPTAC-2和CPTAC-3前瞻性队列,涵盖LUAD、LUSC、COAD和BRCA)、DACHS(CRC)、Kiel和Bern的STAD专有数据集以及IEO的BRCA数据集上进行(图S11a)。
这些外部队列未用于预训练基础模型或训练下游分类器,确保了无数据泄露。关于队列的额外信息,包括患者特征如年龄、性别、种族、癌症分期和肿瘤分期,详见表S3。
在生物标志物发现实验中(结果展示于图3f、表S2),额外使用了来自结直肠癌遗传学与流行病学联盟(GECCO)的数据集,包括CORSA、EPIC、CRA、WHI和IWHS35,36五项研究(图S11b、表S4)。
为确保训练和测试时每类至少有10个案例,同时最大化纳入生物标志物,每个生物标志物使用了不同的训练和测试划分。
选取三个中心进行训练,两个中心进行测试,具体的划分详见表S2,针对达到AUROC > 0.800的生物标志物。
2-2:实验设计
为了反映数字病理学中相关任务的广泛范围,定义了三个主要类别:
- 形态学
- 生物标志物
- 预后任务
形态学任务包括将CRC切片分类为左结肠或右结肠(不包括横结肠),将STAD切片分为Lauren亚型,将NSCLC切片分为腺癌(LUAD)或鳞状细胞癌(LUSC)。
生物标志物任务针对CRC中的分子或表达特征,如BRAF、KRAS、PIK3CA突变,微卫星不稳定(MSI)和CpG岛甲基化表型(CIMP)状态,STAD中的EBV和MSI状态,LUAD中的EGFR、STK11、KRAS和TP53突变,以及BRCA中的HER2、ER、PR表达和PIK3CA突变。
预后任务涉及淋巴结受累(N与N0)和转移(M0与M+)。仅包括在训练和测试队列中每个标签至少有十个可用案例的任务。
总共使用了31个任务,除Lauren分类外,均为二分类(表S5)。
分类器在五折交叉验证设置中训练,随后对所有折进行外部部署,从而提高统计有效性,并确保通过仅在训练期间未使用的数据集上进行测试来进行外部验证。
性能指标包括AUROC、AUPRC、平衡准确率和F1分数,始终代表五个折的平均值。
2-3:图像处理与深度学习技术
本研究采用了STAMP v1.1.0流程进行全切片图像(WSI)的分割、切块提取及后续特征生成。
WSIs被划分为224×224像素的块(对于CONCH v1.5/TITAN则为512×512像素,模型推断前下采样至448×448像素)。最终的有效分辨率可为0.5、~1.14或2 MPP,取决于基础模型的放大偏好。
对于CONCH v1.5,由于下采样,有效分辨率约为0.57和2.28 MPP。评估了每个模型与分辨率的组合,并在主要实验中报告了最佳放大倍数。
使用Canny边缘检测(阈值:40, 100)排除主要包含背景的块,拒绝那些少于2%的像素被分类为边缘的块37。剩余的块被传递到块级基础模型以生成特征嵌入,维度从512(CONCH)到1536(Prov-GigaPath),形成每个WSI的N×M块特征矩阵。
获取切片级表示主要采用了两种方法。
在监督方法中,块嵌入被输入到特定任务的聚合器中,通常是一个基于transformer的网络(STAMP)或基于注意力的多实例学习(ABMIL),以生成每个分类端点的监督预测18,21。
在这种情况下,每个新任务都需要重新训练聚合器模型。最近,引入了切片编码器,将块嵌入(有时还有块坐标)组合成每个切片或患者的单一嵌入向量。
这种策略对特定任务是不可知的,因此能够提供一个统一的、无监督的表示,通过训练一个小型分类器,可以轻松扩展到多个下游应用。
作者提出的EAGLE框架集成了CHIEF(切片级基础模型)和Virchow2(块级基础模型),以高效生成精确的WSI嵌入。
EAGLE模拟病理学家的流程,首先获取整个切片的概览,然后聚焦于最相关的区域。由于EAGLE需要CTransPath块嵌入作为输入,作者首先在2 MPP下使用CTransPath提取特征。CHIEF然后使用这些嵌入生成切片级表示和一个注意力向量,最初设计用于将块嵌入聚合成单一切片嵌入。
EAGLE重新利用这个注意力向量来识别最有信息量的前25个块,模仿病理学家放大相关区域的方式。这些块用Virchow2重新处理,以提取详细的特征嵌入。结果的25个嵌入被平均,以创建一个紧凑的、无监督的切片级表示。
这种混合方法通过只对最有信息量的块应用更强大的特征提取器,最小化计算成本,同时保留关键的形态学细节,避免了对不太相关区域的无效处理。最终的嵌入使得可以使用轻量级模型,如小型MLP分类器,进行下游任务。这个高效的流程展示了在大型病理学分析中性能与计算可行性的平衡。
作者评估了其他多个切片编码器及其块级基础模型(表S7,S8)。
Prov-GigaPath在Providence的171,189个WSIs上采用了掩码自编码器方案,采用具有切片级扩张注意力的LongNet架构,并使用DINOv2预训练的ViT-G/14块编码器29,38。
PRISM应用了基于Perceiver的架构,并采用CoCa风格的视觉-语言对齐,在195,344个标本-报告对的587,196个WSIs上训练,并使用了同样用DINOv2预训练的ViT-H/14块编码器Virchow26。
CHIEF通过切片级对比学习和解剖部位信息进行训练,使用带有SwinTransformer架构的CTransPath作为块编码器8,23。
MADELEINE使用来自乳腺样本的多染料数据进行了预训练,采用了双重全局/局部跨染料对齐,并基于CONCH构建,CONCH是一个带有1.1百万图像-文本对的视觉-语言CoCa模型27,29。
TITAN采用了多阶段预训练制度,结合视觉自监督、与病理报告对齐以及由多模态AI协作者生成的423,122个合成字幕;它使用CONCH v1.5进行块嵌入,依赖UNI作为其视觉骨干和CoCa的文本塔7,28,39。
COBRA在3,048个WSIs上训练,通过对比损失对来自多个基础模型的块嵌入进行对齐,产生切片级表示30。COBRA的最佳版本使用Virchow2特征,它在Virchow的基础上扩大了数据集至3.1百万WSIs,并使用了DINOv2框架的领域特定修改24。
COBRA和CHIEF(部分)在TCGA上训练,但没有任何模型使用作者的外部测试队列,防止了数据泄露。作者将每个切片编码器与直接平均池化基线进行了比较,其中块嵌入简单地平均以产生无监督的切片级特征向量。
对于拥有多个WSIs(例如,多个组织块)的特定患者,每个切片编码器以两种可能的方式应用。
一种方式是每个切片独立处理,然后将嵌入向量平均以得到一个单一的患者表示;
另一种方式是将所有块同时输入到切片编码器中,以在一次前向传递中产生一个患者嵌入。合并所有块的方式提高了所有切片编码器的性能,但由于48 GB GPU的内存限制,对于TITAN,作者必须将特征数量上限设置为15,000。
一旦计算出切片级或患者级嵌入,它就会被输入到一个小型多层感知器(MLP)中以生成每个分类任务的最终预测。这个MLP使用768的输入大小,具有256的隐藏大小、SiLU激活函数和dropout,并使用AdamW优化器( 学习率 = 1 × 1 0 − 4 学习率=1×10^{-4} 学习率=1×10−4, 权重衰减 = 1 × 1 0 − 2 权重衰减=1×10^{-2} 权重衰减=1×10−2)以一个周期策略训练32个周期。
交叉熵损失结合类别权重处理标签不平衡问题。通过五折交叉验证方案中的验证损失监控,早期停止选择了最佳检查点。对于少样本线性探测实验,作者用逻辑回归模型(lbfgs求解器,L2惩罚=1.0,最大迭代次数=10,000,平衡类别权重)替换了MLP,并在每个类别k=1、2、4、8、16、32个样本上进行了训练(图S12,表S6)。
作者重复了每种设置十次,以不同的随机抽选来稳定结果。这种方法允许作者评估切片编码器对极有限训练数据的适应效果。
为了与多模态大型语言模型进行比较,作者测试了EAGLE在少样本情况下的性能(k=2)与GPT-4o的上下文学习能力,针对三个特定任务:
- NSCLC亚型分类(LUAD vs. LUSC)
- CRC中的MSI状态预测
- BRCA中的ER表达
EAGLE使用其标准的逻辑回归方法,而GPT-4o接收包含每个类别两个示例图像的提示,加上查询图像(EAGLE选择的顶部25个块与单个缩略图)(表S9)。
GPT-4o模型每张图像运行三次以减少变异性,温度=0.7,最大令牌长度=1,000。提示中的严格JSON格式迫使GPT-4o在每次响应中提供单个标签。
此外,还进行了一项分析以检查计算效率。作者选择了25个代表性的WSIs(按块计数分为2、6、10、…、98的百分位数)并测量了每个块编码器的推理时间和浮点运算(FLOPs)。FLOP计数使用ptflops得出,并乘以整个数据集中的平均块计数以估计总计算成本。
2-4:可解释性
为了解释EAGLE生成的嵌入空间,作者应用了UMAP降维方法(n_neighbors=15, min_dist=0.1)将所有队列中的患者嵌入投影到二维空间。这种可视化方法使得能够通过组织来源评估形态学聚类。
单独的实验测试了EAGLE的嵌入如何通过用L2归一化每个嵌入并执行余弦相似度搜索来促进切片级的检索。作者对外部队列中的五个随机患者进行了查询,并返回了前三个匹配项。检索到的切片由一名董事会认证的病理学家评估,关于WSIs所选区域的质量和重要性。
此外,为了调查EAGLE顶级块选择的鲁棒性,特别是在存在伪影的情况下,作者对DACHS CRC队列中随机选择的50张切片的顶级25块进行了系统回顾。一名病理学家审查了这些块,以确定伪影焦点(例如,笔迹)与富含肿瘤区域的频率。
这一性能与监督基线进行了比较:在STAMP中使用Virchow2块嵌入进行MSI状态预测任务。通过使用梯度加权的类激活映射(Grad-CAM)40,识别出了获得最高注意力权重的25个块。
一名病理学家分析了EAGLE和STAMP选择的块,重点关注它们的临床相关性和形态学意义。
2-5:统计分析
所有任务中的分类性能结果均通过对每个交叉验证折中产生的五个模型的结果进行汇总,并通过均值AUROC、AUPRC、平衡准确率和F1等指标进行总结。
标准差计算跨五个折进行,并对集成预测(对每个样本的折概率分数取平均)应用了两侧DeLong’s检验,以评估AUROC的差异。
由于DeLong’s程序不直接适用于多类设置,因此像Lauren分类这样的多类任务被排除在这些统计检验之外。在整个分析过程中,作者使用了Benjamini–Hochberg调整,并将p值低于0.05视为统计优越性的证据。
2-6:数据可用性
TCGA的WSIs可通过基因组数据公共数据门户(https://portal.gdc.cancer.gov/)公开获取,CPTAC切片可以从CPTAC数据门户(https://proteomics.cancer.gov/data-portal)获得。这些资源的所有分子数据可在cBioPortal(https://www.cbioportal.org/)上找到。
DACHS的切片和生物标志物数据是为先前的研究41–43生成的,访问受限。DACHS的生物标志物数据可通过申请phs001078研究的授权访问来获取[https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs001113.v1.p1]。申请访问DACHS生物标志物数据仅限于高级研究员和NIH研究员,如https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi所定义,成功申请后将授予一年数据访问权限,并有机会续签。
DACHS的切片只能通过DACHS的主要研究者直接请求。其他队列可从各自研究的调查员处请求。本研究中为创建图表而生成的数据已在源数据文件中提供。源数据随本文一起提供。
2-7:代码可用性
所有基准实验均基于开源的STAMP软件(v1.1.0)构建。
公开可用的基础模型(例如,CTransPath、Prov-GigaPath、CONCH、Virchow、Virchow2等)可通过GitHub(https://github.com/KatherLab/STAMP-Benchmark)获取。
EAGLE的实现、测试的切片编码器、MLP和LP分类器的实现、基于GPT-4o的上下文学习、UMAP可视化、顶级块和切片搜索均在EAGLE仓库(https://github.com/KatherLab/EAGLE)中提供。
所有实验均使用NVIDIA RTX A6000、L40或H100 GPU进行。
三、EAGLE框架简析
3-1:系统要求
基础配置
- 操作系统: Debian GNU/Linux 12 (推荐) 或兼容的Linux发行版
- Python版本: 3.11
- 内存: ≥32GB(大型数据集) / 8GB(演示数据集)
- 存储: 预留至少50GB空间存放模型和特征文件
GPU支持(可选)
- 显存: ≥12GB(推荐NVIDIA显卡)
- 驱动: CUDA 12.0+ 和 cuDNN 8.9+
3-2:安装步骤
- 克隆仓库
git clone https://github.com/your_org/EAGLE.git
cd EAGLE
- 安装依赖
pip install -r requirements.txt
- 目录准备
mkdir -p cache/images tile_features/2mpp model_weights
3-3:运行演示案例
- 下载演示数据
从TCGA-CRC获取7张WSI切片(自动下载或手动放置于data/demo/
)
- 执行演示脚本
python eagle/main_feature_extraction.py --visualize
- 验证输出
- H5文件: 在
output/embeddings/
生成患者级1280维特征 - 可视化结果: 在
output/visualization/
查看带标记框的缩略图
3-4:完整特征提取流程
- 提取CTransPath特征
使用STAMP-Benchmark工具:
python STAMP/extract_features.py \
--input_dir slides/ \
--output_dir tile_features/2mpp/ \
--mpp 2 \
--tile_size 224 \
--normalize false \
--feature_extractor ctp
- 获取Virchow2访问权限
- 访问Hugging Face模型页面
- 提交使用申请
- 获取token后配置环境变量:
echo 'export VIRCHOW2_TOKEN="your_token_here"' >> ~/.bashrc
source ~/.bashrc
- 下载CHIEF模型权重
wget -P model_weights/ https://chief-repo.com/CHIEF_pretraining.pth
- 准备映射表
创建slide_table.csv
文件,格式示例:
PATIENT,FILENAME
patient_001,slide_001.h5
patient_002,slide_002.h5
- 执行特征提取
python eagle/main_feature_extraction.py \
--slide_table slide_table.csv \
--output_dir results/
3-5:高级选项
参数调节
参数 | 说明 | 默认值 |
---|---|---|
--tile_threshold | 选择tile的置信度阈值 | 0.8 |
--max_tiles | 每张切片最大tile数 | 32 |
--batch_size | GPU批处理大小 | 16 |
多GPU支持
torchrun --nproc_per_node=4 eagle/main_feature_extraction.py
科研合作意向统计
为了更好的利用小罗搭建的交流平台,我决定发放一个长期有效的问卷,征集大家在科研方面的任何需求,并且定期整理汇总,方便大家课题合作,招收学生,联系导师……
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!