基于卷积神经网络的病理活检胃癌诊断模型

王继仙, 桂坤, 陈炳宪, 茹国庆, 赵地, 陈万远, 张志勇

王继仙, 桂坤, 陈炳宪, 茹国庆, 赵地, 陈万远, 张志勇. 基于卷积神经网络的病理活检胃癌诊断模型[J]. 协和医学杂志, 2022, 13(4): 597-604. DOI: 10.12290/xhyxzz.2022-0021
引用本文: 王继仙, 桂坤, 陈炳宪, 茹国庆, 赵地, 陈万远, 张志勇. 基于卷积神经网络的病理活检胃癌诊断模型[J]. 协和医学杂志, 2022, 13(4): 597-604. DOI: 10.12290/xhyxzz.2022-0021
WANG Jixian, GUI Kun, CHEN Bingxian, RU Guoqing, ZHAO Di, CHEN Wanyuan, ZHANG Zhiyong. Gastric Cancer Diagnostic Model Based on Convolutional Neural Network[J]. Medical Journal of Peking Union Medical College Hospital, 2022, 13(4): 597-604. DOI: 10.12290/xhyxzz.2022-0021
Citation: WANG Jixian, GUI Kun, CHEN Bingxian, RU Guoqing, ZHAO Di, CHEN Wanyuan, ZHANG Zhiyong. Gastric Cancer Diagnostic Model Based on Convolutional Neural Network[J]. Medical Journal of Peking Union Medical College Hospital, 2022, 13(4): 597-604. DOI: 10.12290/xhyxzz.2022-0021

基于卷积神经网络的病理活检胃癌诊断模型

基金项目: 

浙江省公益技术应用研究项目 GF20F020087

详细信息
    通讯作者:

    陈万远, E-mail: chenwanyuan@hmc.edu.cn

    张志勇, E-mail: 1073810505@qq.com

  • 中图分类号: R735.2

Gastric Cancer Diagnostic Model Based on Convolutional Neural Network

Funds: 

Zhejiang Provincial Public Welfare Technology Application Research Project GF20F020087

More Information
  • 摘要:
      目的  基于深度学习技术,建立胃活检病理切片胃癌诊断模型,并对模型的性能进行评价。
      方法  回顾性收集2015年1月—2020年1月浙江省人民医院胃活检诊断为正常胃黏膜、慢性胃炎、高级别上皮内瘤变和胃腺癌患者的病理切片。以20倍率扫描为全视野数字图像(whole slide image, WSI),并按2:2:1的比例随机分为图块分类数据集、切片分类训练集与切片分类测试集。对图块分类数据集病变区域进行标注、图块截取后,按20:1:1的比例随机分为训练集、测试集、验证集。基于Efficientnet和ResNet网络结构构建卷积神经网络(convolutional neural network,CNN)图块级癌与非癌分类模型,并以图块分类准确率、受试者操作特征曲线下面积(area under the curve, AUC)评价该模型的性能。基于此模型拼接获取整张WSI的癌变热力图,提取热力图中切片级癌与非癌分类特征,对LightGBM算法进行训练,最终完成整张胃癌活检切片的诊断与识别,其识别结果以AUC、准确率、灵敏度、特异度进行评价。
      结果  共入选符合纳入和排除标准的胃良性疾病(正常胃黏膜、慢性炎症)病理切片500张,胃癌(高级别上皮内瘤变、胃腺癌)病理切片500张。图块分类数据集、切片分类训练集与切片分类测试集WSI分别为400张、400张、200张。图块分类训练集、测试集、验证集图块分别为402 000个、20 000个、20 000个。以Efficientnet-b1网络结构建立的CNN模型对测试集、验证集图块分类的准确率[测试集:91.3%(95% CI: 88.2%~95.4%);验证集:92.5%(95% CI: 89.0%~95.3%)]、AUC[测试集:0.95(95% CI: 0.93~0.98);验证集:0.96(95% CI: 0.92~0.98)]均最高。基于LightGBM算法构建的模型识别整张切片为胃癌的AUC为0.98(95% CI: 0.89~0.98),准确率为88.0%(95% CI: 81.6%~94.3%),灵敏度为100%(95% CI: 88.0%~100%),特异度为67.0%(95% CI: 57.0%~85.0%)。
      结论  基于胃活检病理切片建立的CNN诊断模型可对癌变组织进行定位,实现图块级和切片级病变性质精确分类,准确识别胃癌,有望提高病理诊断效率。
    Abstract:
      Objective  To build a diagnostic model of gastric cancer based on deep learning and evaluate the performance of the model.
      Methods  The pathological sections of patients diagnosed with normal gastric mucosa, chronic gastritis, high-grade intraepithelial neoplasia or gastric adenocarcinoma by endoscopic examination in Zhejiang Provincial People's Hospital from January 2015 to January 2020 were retrospectively selected. The pathology slides were scanned at ×20 magnification to generate whole slide images (WSIs). These WSIs were randomly divided into patch classification data set, slide classification training set and slide classification test set at a ratio of 2:2:1. After the lesion regions of the patch classification data set were annotated and the patches were selected, they were randomly divided into training set, test set and validation set at a ratio of 20:1:1. The deep learning model Efficientnet and ResNet were used to train and the convolutional neural network (CNN) model for cancer and non-cancer classification was constructed. Based on the patch classification test set and validation set, the performance of the model was evaluated. The results were evaluated by the patch classification accuracy and the area under the curve (AUC). This model was used for image stitching to generate the cancerous heat map of WSIs and extract the slide-level cancer and non-cancer classification features of the heat map. LightGBM slide-level classification algorithm were trained and evaluated, and the gastric cancer of WSIs were diagnosed and recognized. The results were evaluated by AUC, accuracy, sensitivity and specificity.
      Results  A total of 500 pathological sections of benign gastric diseases (normal gastric mucosa, chronic gastritis) and 500 pathological sections of gastric cancer (high-grade intraepithelial neoplasia and gastric adenocarcinoma) that met the inclusion and exclusion criteria were selected. The patch classification data set, slide classification training set and slide classification test set were 400, 400 and 200, respectively. The patch classification training set, test set, validation set were 402 000, 20 000, 20 000, respectively. CNN model based on Efficientnet-b1 network structure for patch classification in test set and validation set achieved the highest accuracy[test set: 91.3% (95% CI: 88.2%-95.4%); validation set: 92.5%(95% CI: 89.0%-95.3%)]and the highest AUC[test set: 0.95(95% CI: 0.93-0.98); validation set: 0.96(95% CI: 0.92-0.98)]. The AUC of the model based on LightGBM algorithm was 0.98(95% CI: 0.89-0.98), with accuracy of 88.0%(95% CI: 81.6%-94.3%), sensitivity 100%(95% CI: 88.0%-100%), and specificity 67.0%(95% CI: 57.0%-85.0%).
      Conclusion  The CNN diagnostic model based on the pathology slides of gastric biopsy can locate the cancerous tissues, classify patch-level and slide-level lesion natures accurately, identify gastric cancer accurately, which has the potential to improve the diagnosis efficiency.
  • 胃癌是起源于胃黏膜细胞的恶性肿瘤,其发病率和死亡率均位居肿瘤前列[1],其中中晚期胃癌的预后较差,5年生存率仅为60%[2];相对而言,早期胃癌预后较好[3],因此早期发现、及时诊断对改善胃癌患者的生存期至关重要。然而研究显示,我国早期胃癌的诊治率仅为10%[4],远低于韩国(71.5%)[5]和日本(64.6%)[6]。目前胃癌的早期筛查主要依靠胃镜病理活检,增加胃镜活检率是减少胃癌死亡率的有力手段, 但内镜检查普及率的增高进一步加重了病理医生的阅片负担。如何寻找新的技术赋能医疗,让本身就短缺的病理医师专注于更有价值的病理诊断,是值得探索的问题。

    近年来,人工智能得到了空前发展,该前沿技术在医学领域中的应用逐渐成为一种新趋势。在病理学方面,人工智能在脑、乳腺、肺等重要器官的诊断方面已取得长足进步[7-9]。关于胃癌的病理诊断,Sharma等[10]提出一种基于典型的AlexNet网络结构建立的卷积神经网络(convolutional neural network,CNN)分类模型可实现对整张数字病理图像中胃癌的识别。Sharma等[11]利用神经网络提取胃癌细胞核内的纹理信息并构建支持向量机(support vector mach-ine,SVM)分类器,亦实现了胃癌的分类识别。但既往研究采用的方法虽可识别出胃癌,但无法对肿瘤区域准确定位。本研究基于深度学习技术的图像分类方法,以期实现对病理切片中的胃癌区域进行识别和定位,以辅助病理医师精准定位病变区域,利于患者后续治疗方案的制订。

    本研究为回顾性分析。病理切片来自2015年1月—2020年1月浙江省人民医院行内镜检查的患者。纳入标准:(1)内镜活检病理诊断为正常胃黏膜、慢性胃炎、高级别上皮内瘤变或胃腺癌;(2)病理切片及诊断资料保存完好。排除标准:病理结果合并其他诊断。

    本研究已通过浙江省人民医院伦理审查委员会审批(审批号:QT2022099),并豁免患者知情同意。

    所有病理切片均由2名消化道早癌专科的病理医师,按照WHO Classificasion of Tumors of the Digestive System[12]中的标准重新阅片,进一步确认诊断无误。采用KF-PRO-400高精度切片扫描仪以20倍率将其扫描为全视野数字图像(whole slide image, WSI),并按2:2:1的比例随机分为图块分类数据集、切片分类训练集与切片分类测试集,分别用于图块级癌与非癌分类模型构建与训练、切片级癌与非癌分类模型训练与验证。图块分类数据集按20:1:1的比例随机分为训练集、测试集、验证集。

    本研究包括模型训练和模型应用两个阶段。(1)模型训练阶段:对图块分类数据集WSI中的癌组织区域进行标注,并训练图块级癌与非癌分类模型,用于图块中癌与非癌的识别。(2)模型应用阶段:采用Otsu算法获取整张WSI中的组织前景区域,然后用经过训练的图块级癌与非癌分类模型对前景区域中的图块进行识别,拼接出整张WSI的癌变热力图,并从热力图中提取切片级癌与非癌分类特征,输入切片级癌与非癌二分类模型,最终完成整张胃活检切片的诊断。整体研究框架见图 1

    图  1  基于卷积神经网络的胃癌诊断模型研究框架

    由于WSI尺寸较大,平均像素为10万×10万。为更好地对组织进行标注,本研究团队研发了专门的在线标注平台。对于胃癌WSI,采用闭合曲线标注所有癌组织区域(图 2A);对于胃良性疾病WSI,采用矩形标注工具标注正常胃组织(图 2B)。

    图  2  全视野数字图像标注示例
    A.胃癌;B.胃良性疾病

    根据标注结果(未标注的前景区域视为良性区域),在20倍率下采用滑窗法截取512×512大小含癌组织标注的图块(癌变图块)作为阳性图块,不含癌组织标注的图块作为阴性图块的一部分(胃正常组织图块),采用同样方法从正常良性切片中截取同样大小的图块为阴性图块的另一部分。

    输入训练集阳性/阴性图块,对Efficientnet(Efficientnet-b1、Efficientnet-b2、Efficientnet-b3)和ResNet (ResNet50、ResNet101)网络结构进行训练,建立图块级癌与非癌CNN分类模型,并基于受试者操作特征(receiver operating characteristic, ROC)的曲线下面积(area under the curve, AUC)筛选最优的模型,训练过程中采用随机裁剪(224×224像素)、翻转、Gamma变换、高斯模糊、纹理变换等图像增强方法提高模型的泛化能力(图 3)。训练过程中,优化器为Adam,初始学习率为0.01,训练策略为Early Stop,当验证集Loss下降至最低点时,提前终止训练。

    图  3  图块级癌与非癌分类模型训练时的图像增强方法

    为进一步对整张切片的癌变部位进行预测,采用Otsu算法获取1倍率WSI组织前景信息,然后采用训练后的图块级癌与非癌分类模型识别前景区域中的图块,基于全图推理法拼接出整张WSI的癌变热力图。基于热力图与组织前景信息,从热力图中提取切片级胃癌分类特征,选取与切片阴阳性相关系数最高的5个特征进行LightGBM算法训练,最终完成整张胃活检切片中胃癌的识别。

    WSI数字病理切片全图推理主要包括3个步骤。

    第一步:提取1倍率下组织学数字病理图像,获取组织前景区域Mask,保存为0-1矩阵。其中组织前景设定为1,背景设定为0。具体计算方式如下:

    $$ \begin{aligned} I_{t}=&\left(I_{S}>I_{S}^{0}\right) \cap\left(I_{R}>I_{R}^{0}\right) \cap\left(I_{G}>I_{G}^{0}\right) \cap \\ &\left(I_{B}>I_{B}^{0}\right) \end{aligned} $$ (1)

    其中,ISIRIGIB分别为原始图像的SRGB通道图像;IS0IR0IG0IB0为对应图像的Otsu阈值。最终计算出的It为二值图像,像素真值部分为前景区域,零值部分为切片背景区域。

    第二步:采用滑窗法(窗口大小为512×512,步长384)从矩阵中截取一系列图块用于图块级癌与非癌分类模型推理,并记录每个图块左上角相对于WSI的坐标。在全图拼接时,截取每个预测图块的中心处大小的矩形区域,合并生成最终全图的癌变热力图。

    第三步:基于第二步获取的WSI热力图,提取肿瘤分类特征。采用经过训练的LightGBM分类算法获取整张WSI中胃癌分类结果。LightGBM分类模型是一个支持梯度提升决策树算法的框架,工作效率高且内存消耗低。在训练前,首先将从WSI热力图中提取的肿瘤分类特征排序,并绘制特征直方图。在后续训练过程中,算法仅需使用直方图作为“特征”进行决策树构建,可极大程度上提高训练效率。此外,LightGBM算法采用深度优先分裂策略,每次对叶节点进行分裂时均将全部训练数据考虑在内,不仅不会造成局部最优,且减少了后剪枝操作的次数。决策树构建过程中,模型对梯度小的训练数据进行采样处理,而对梯度大的训练数据保留全部信息,以提高模型的稳定性。

    采用图块分类准确率、AUC评价图块级分类性能;采用AUC、准确率、灵敏度、特异度评价整张切片癌与非癌的分类性能。

    采用SPSS 22.0软件进行统计学分析。基于均值、方差、偏度系数和峰度等指标,对癌变热力图中的肿瘤分类特征进行提取。以肿瘤连通域面积的均值、方差、偏态系数、峰度为例,设一组肿瘤连通域面积X={x1, x2, …, xn}, 则均值反映肿瘤连通域面积的平均大小,方差可衡量肿瘤连通域面积分布的离散情况,偏态系数可评估肿瘤连通域面积分布的对称性,峰度可评估肿瘤连通域面积峰值的高低。采用Pearson相关法衡量肿瘤特征与胃癌风险区域的相关性。

    共入选1000张符合纳入和排除标准的胃活检病理切片,其中胃良性疾病(正常胃黏膜、慢性炎症)病理切片500张,胃癌(高级别上皮内瘤变、胃腺癌)病理切片500张。图块分类数据集、切片分类训练集、切片分类测试集中,每个数据集均包含胃癌与胃良性疾病WSI图像,分别为400张、400张、200张。图块分类数据集的训练集、测试集、验证集中,每个数据集均包含胃癌与胃良性疾病WSI图块,分别为402 000个、20 000个、20 000个。

    5种网络结构构建的癌与非癌分类模型中,相较于结构更为复杂的Efficientnet-b2、Efficientnet-b3,以Efficientnet-b1网络结构建立的模型对测试集、验证集图块分类的准确率、AUC均最高,见表 1

    表  1  基于5种网络结构构建的图块级癌与非癌分类模型的性能比较
    网络结构 准确率[%(95% CI)] AUC(95% CI)
    测试集 验证集 测试集 验证集
    Efficientnet-b1 91.3(88.2~95.4) 92.5(89.0~95.3) 0.95(0.93~0.98) 0.96(0.92~0.98)
    Efficientnet-b2 90.2(87.3~95.1) 91.6(88.4~95.8) 0.94(0.92~0.98) 0.95(0.91~0.98)
    Efficientnet-b3 89.5(86.2~93.7) 89.9(86.7~93.4) 0.94(0.92~0.97) 0.95(0.91~0.98)
    ResNet50 89.3(85.3~93.8) 91.3(88.1~95.7) 0.91(0.88~0.94) 0.93(0.89~0.96)
    ResNet101 88.2(84.8~91.5) 90.4(87.4~94.8) 0.90(0.88~0.93) 0.91(0.88~0.95)
    AUC: 曲线下面积
    下载: 导出CSV 
    | 显示表格

    基于全图推理法,采用Efficientnet-b1网络结构构建的癌与非癌分类模型获取整张切片的癌变热力图(图 4),结合组织前景信息,于切片分类测试集中共提取31个肿瘤分类特征(表 2),并选取其中与切片阴阳性相关系数最高的5个特征进行切片级癌与非癌分类模型训练(表 3),结果显示基于LightGBM算法构建的模型对整张切片分类的AUC为0.98(95% CI: 0.89~0.98),准确率为88.0%(95% CI: 81.6%~94.3%),灵敏度为100%(95% CI: 88.0%~100%),特异度为67.0%(95% CI: 57.0%~85.0%),见图 5

    图  4  根据全视野数字图像识别的癌变热力图
    A.全视野数字图像;B. 癌变热力图(颜色越接近红色表示该区域癌变的风险越高)
    表  2  根据癌变热力图和前景信息筛选的癌与非癌分类特征
    特征数量(个) 特征描述 热力图阈值
    1 肿瘤连通域总面积 0.9
    1 肿瘤连通域面积与前景组织的比值 0.5
    1 最大肿瘤连通域的面积 0.5
    1 最大肿瘤连通域的最长轴长度 0.5
    1 热力图像素总数量 0.5
    1 所有肿瘤区域中像素与边框中像素比值的均值 0.9
    5 各肿瘤连通域面积的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤连通域周长的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤区域中像素与边框中像素比值的最大值、均值、方差、偏态系数、峰度 0.5
    5 各肿瘤区域中像素与凸包图像中像素比值的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤连通域第二矩的椭圆偏心率(焦距与主轴长度的比值)的最大值、均值、方差、偏态系数、峰度 0.9
    下载: 导出CSV 
    | 显示表格
    表  3  切片级癌与非癌相关性最强的5个肿瘤分类特征
    序号 特征描述 Pearson相关系数r
    1 各肿瘤区域中像素与凸包图像中像素比值的方差 0.852
    2 各肿瘤连通域面积的偏态系数 0.835
    3 最大肿瘤连通域的最长轴长度 0.833
    4 各肿瘤连通域周长的偏态系数 0.823
    5 最大肿瘤连通域的面积 0.748
    下载: 导出CSV 
    | 显示表格
    图  5  基于LightGBM算法构建的癌与非癌分类模型识别切片分类测试集中胃癌的受试者操作特征曲线图

    本研究利用计算机前沿技术,建立基于胃活检病理图片的胃癌诊断模型,结果显示该模型对测试集图块分类的AUC为0.95,对整张切片分类的AUC为0.98,且可对癌变区域进行定位,有助于在临床工作中提高病理医生的阅片效率,辅助胃癌的早期诊断。

    2017年4月,美国食品药品监督管理局批准Philips公司的Philips IntelliSite Pathology Solution (PIPS)作为首个用于病理诊断的WSI数字系统,其在保障成像精度的同时,可利用数字化病理切片进行疾病诊断,并提供文件检索功能,为以后快速获取提供了极大便利。自此,人工智能技术在肿瘤病理学中的应用取得了质的突破,包括肿瘤诊断、分型、分级、分期、预后预测、生物标志物和基因改变的识别。

    算法是人工智能深度学习的核心,可探究数据的内在规律,其运行需大量数据的支持。为弥补病理图像样本量不足的限制,多数情况下,在算法运行和机器学习过程中,常需对图像进行分割,以扩展数据、提高模型的性能。传统医学图像的分割算法包含边缘分割、区域分割和泛函图像分割等,存在严重依赖人工设计、特征设计过于复杂、模型泛化能力较差等问题。深度学习是应用最广泛的图像分割方法,通过数据挖掘、自然语言处理等技术,在图像识别方面已取得重大进展。CNN是当前语言分析和图像识别领域的研究热点,其模仿大脑视觉皮层构造和视觉活动原理而开发。CNN模型中包含多层图像感知器(相当于人工视神经元)、多个神经网络层、连续的卷积层与后方池化层,可对原始图像数据进行深度学习,并预测特征分类,为医学成像的识别提供了机会。研究表明,利用CNN可从组织病理学图像中自动识别、检测出各种恶性肿瘤且具有较高的准确性。Garcia等[13]基于CNN模型建立的分类系统可根据免疫组化图像对胃癌进行识别。Sharma等[10]研究显示,基于深度学习CNN模型可对病理学图像的整个形态学特征和局灶特征进行分析,实现胃癌总体分类(准确率为69.90%)。Tomita等[14]报道了一种基于CNN算法建立的人工智能辅助系统,可自动识别Barrett食管或胃腺瘤以及腺癌的肿瘤前病变。Iizuka等[15]的研究得到了类似结果,基于CNN算法识别胃活检病理图像,可实现胃腺癌、腺瘤和非肿瘤组织的智能分类(AUC:0.97)。上述研究虽然可根据病理切片识别出胃癌,但对整张病理切片中的肿瘤区域无法实现精准定位。

    本研究收集了浙江省人民医院的1000张胃镜活检病理切片,通过转化为WSI实现了病理切片的数字化保存。基于深度学习技术,首先搭建可对图块进行分类识别的CNN网络模型,并可准确对WSI中的癌变区域进行定位。在此基础上,通过特征提取构建切片级肿瘤分类机器学习模型(LightGBM算法),对整张切片胃癌识别的AUC高达0.98,明显优于既往研究结果[16]。癌变热力图可直观清晰显示胃癌风险区域,其中颜色越接近红色的区域,表示为胃癌的可能性越大。通过对癌变区域进行精确定位,可辅助病理医生对病变性质进行快速诊断,并有利于后续临床治疗,显著提高了工作效率。

    本研究通过深度学习技术实现了对整张病理切片进行分类诊断,并对癌变区域进行精准定位,首先得益于样本量较大。机器学习在缺乏医学先验知识的情况下,可从图像中自动学习相关特征,并对图像进行分类。高识别精度需要足够多的数据量提供支撑,以避免模型过拟合现象。其次,在图像标注方面,本研究首先研发了特定的标注工具,可显著提高标注效率,同时设计了一个测试程序,包括初步标签、进一步验证和最终审查。切片随机由1名病理医师标注完成后,再随机选取1名病理医师进行审查,并由病理专家对标注结果进行随机抽查,以保证标注质量。此外,在模型验证与评价时,本研究以灵敏度100%、特异度67%为最佳识别性能,并非以约登指数最大值为标准,原因在于数字病理图像的人工智能辅助诊断系统需优先解决的是筛查问题,即在保证阳性类别不漏检的前提下尽量提高特异度。临床应用时,病理医师仅需对阳性切片进行筛查,可提高诊断效率,并避免漏诊。

    Song等[17]使用CNN模型对2123像素级注释的HE切片病理图像进行训练,建立的胃癌诊断模型发现2例人工阅片漏诊的病例。本研究经病理科医师重新阅片,发现最初的病理报告亦存在误诊现象,而模型对切片进行识别时,可实现正确分类。如图 6所示,4例原始病理报告诊断为腺上皮高级别上皮内瘤变的病例,经重新阅片后判定为炎症伴黏膜肠化生,模型对该4例患者的分类结果均正确,进一步提示基于深度学习技术构建的胃癌智能诊断模型具有准确率高,减少漏诊、误诊的优势。

    图  6  胃良性疾病病理图像(HE,×40)
    A.慢性轻度非萎缩性胃炎伴轻度肠化生;B.化学性胃炎伴慢性中度非萎缩性胃炎、轻度肠化生;C.黏膜慢性炎症伴中度肠化生; D.慢性中度萎缩性胃炎伴中度肠化生

    本研究局限性:(1)仅构建胃癌识别的二分类模型,无法对高级别上皮内瘤变和胃腺癌进行区分。(2)虽然分类模型在胃癌的识别中显示出了较高的性能,但真正用于实际病例的诊断尚面临挑战。原因包括两个方面:第一,用于训练CNN模型的图像中,一些特征如肿瘤免疫微环境中的坏死、血管和炎症等未进行标注;第二,入选的疾病种类较单一。

    综上,基于胃活检病理切片建立的CNN诊断模型可实现对图块级和切片级病变性质精确分类,准确识别胃癌;同时可识别因人工阅片疏漏导致的漏诊、误诊,在病理学领域有很大的发展前景。相信随着机器学习算法的持续改进以及数据量的累积, 智能诊断系统对疾病分类的精确度和诊断效率会得到进一步提高。

    作者贡献:王继仙负责数据整理与分析、论文撰写;桂坤、陈炳宪负责研究实施、数据分析;茹国庆负责病理阅片、研究设计;赵地负责研究设计、数据分析;陈万远、张志勇负责病理阅片、文献整理、论文修订。
    利益冲突:所有作者均声明不存在利益冲突
  • 图  1   基于卷积神经网络的胃癌诊断模型研究框架

    图  2   全视野数字图像标注示例

    A.胃癌;B.胃良性疾病

    图  3   图块级癌与非癌分类模型训练时的图像增强方法

    图  4   根据全视野数字图像识别的癌变热力图

    A.全视野数字图像;B. 癌变热力图(颜色越接近红色表示该区域癌变的风险越高)

    图  5   基于LightGBM算法构建的癌与非癌分类模型识别切片分类测试集中胃癌的受试者操作特征曲线图

    图  6   胃良性疾病病理图像(HE,×40)

    A.慢性轻度非萎缩性胃炎伴轻度肠化生;B.化学性胃炎伴慢性中度非萎缩性胃炎、轻度肠化生;C.黏膜慢性炎症伴中度肠化生; D.慢性中度萎缩性胃炎伴中度肠化生

    表  1   基于5种网络结构构建的图块级癌与非癌分类模型的性能比较

    网络结构 准确率[%(95% CI)] AUC(95% CI)
    测试集 验证集 测试集 验证集
    Efficientnet-b1 91.3(88.2~95.4) 92.5(89.0~95.3) 0.95(0.93~0.98) 0.96(0.92~0.98)
    Efficientnet-b2 90.2(87.3~95.1) 91.6(88.4~95.8) 0.94(0.92~0.98) 0.95(0.91~0.98)
    Efficientnet-b3 89.5(86.2~93.7) 89.9(86.7~93.4) 0.94(0.92~0.97) 0.95(0.91~0.98)
    ResNet50 89.3(85.3~93.8) 91.3(88.1~95.7) 0.91(0.88~0.94) 0.93(0.89~0.96)
    ResNet101 88.2(84.8~91.5) 90.4(87.4~94.8) 0.90(0.88~0.93) 0.91(0.88~0.95)
    AUC: 曲线下面积
    下载: 导出CSV

    表  2   根据癌变热力图和前景信息筛选的癌与非癌分类特征

    特征数量(个) 特征描述 热力图阈值
    1 肿瘤连通域总面积 0.9
    1 肿瘤连通域面积与前景组织的比值 0.5
    1 最大肿瘤连通域的面积 0.5
    1 最大肿瘤连通域的最长轴长度 0.5
    1 热力图像素总数量 0.5
    1 所有肿瘤区域中像素与边框中像素比值的均值 0.9
    5 各肿瘤连通域面积的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤连通域周长的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤区域中像素与边框中像素比值的最大值、均值、方差、偏态系数、峰度 0.5
    5 各肿瘤区域中像素与凸包图像中像素比值的最大值、均值、方差、偏态系数、峰度 0.9
    5 各肿瘤连通域第二矩的椭圆偏心率(焦距与主轴长度的比值)的最大值、均值、方差、偏态系数、峰度 0.9
    下载: 导出CSV

    表  3   切片级癌与非癌相关性最强的5个肿瘤分类特征

    序号 特征描述 Pearson相关系数r
    1 各肿瘤区域中像素与凸包图像中像素比值的方差 0.852
    2 各肿瘤连通域面积的偏态系数 0.835
    3 最大肿瘤连通域的最长轴长度 0.833
    4 各肿瘤连通域周长的偏态系数 0.823
    5 最大肿瘤连通域的面积 0.748
    下载: 导出CSV
  • [1]

    Siegel RL, Miller KD, Jemal A. Cancer statistics, 2019[J]. Cancer J Clin, 2019, 69: 7-34. DOI: 10.3322/caac.21551

    [2]

    Yoshikawa K, Maruyama K. Characteristics of gastric cancer invading to the proper muscle layer-with special reference to mortality and cause of death[J]. JPN J Clin Oncol, 1985, 15: 499-503.

    [3]

    Everett SM, Axon AT. Early gastric cancer in Europe[J]. Gut, 1997, 41: 142-150. DOI: 10.1136/gut.41.2.142

    [4]

    Chen W, Zheng R, Baade PD, et al. Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66: 115-132. DOI: 10.3322/caac.21338

    [5]

    Oh CM, Won YJ, Jung KW, et al. Cancer statistics in Korea: incidence, mortality, survival, and prevalence in 2013[J]. Cancer Res Treat, 2016, 48: 436-450. DOI: 10.4143/crt.2016.089

    [6]

    Matsuda T, Ajiki W, Marugame T, et al. Population-based survival of cancer patients diagnosed between 1993 and 1999 in Japan: a chronological and international comparative study[J]. JPN J Clin Oncol, 2011, 41: 40-51. DOI: 10.1093/jjco/hyq167

    [7]

    Jin L, Shi F, Chun Q, et al. Artificial intelligence neuropathologist for glioma classification using deep learning on hematoxylin and eosin stained slide images and molecular markers[J]. Neuro Oncol, 2021, 23: 44-52. DOI: 10.1093/neuonc/noaa163

    [8]

    Naik N, Madani A, Esteva A, et al. Deep learning-enabled breast cancer hormonal receptor status determination from base-level H&E stains[J]. Nat Commun, 2020, 11: 5727. DOI: 10.1038/s41467-020-19334-3

    [9]

    Coudray N, Ocampo PS, Sakellaropoulos T, et al. Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning[J]. Nat Med, 2018, 24: 1559-1567. DOI: 10.1038/s41591-018-0177-5

    [10]

    Sharma H, Zerbe N, Klempert I, et al. Deep convolutional neural networks for automatic classification of gastric carcinoma using whole slide images in digital histopathology[J]. Comput Med Imaging Graph, 2017, 61: 2-13. DOI: 10.1016/j.compmedimag.2017.06.001

    [11]

    Sharma H, Zerbe N, Heim D, et al. A multi-resolution approach for combining visual information usingnuclei segmentation and classification in histopathological images[C]. Proceedings of the 10th International Conference on Com-puter Vision Theoryand Applications (VISAPP 2015), 2015, 3: 37-46.

    [12]

    Arends MJ, Fukayama M, Klimstra DS, et al. WHO Classification of tumours of the digestive system[M]. 5thed. Lyon: IARC Press, 2019: 1-635.

    [13]

    Garcia E, Hermoza R, Castanon C B, et al. Automatic Lymphocyte Detection on Gastric Cancer IHC Images Using Deep Learning[C]. IEEE International Symposium on Computer-based Medical Systems, 2017. doi: 10.1109/CBMS.2017.94.

    [14]

    Tomita N, Abdollahi B, Wei J, et al. Attention-Based Deep Neural Networks for Detection of Cancerous and Precancer-ous Esophagus Tissue on Histopathological Slides[J]. JAMA Netw Open, 2019, 2: e1914645. DOI: 10.1001/jamanetworkopen.2019.14645

    [15]

    Iizuka O, Kanavati F, Kato K, et al. Deep Learning Models for Histopathological Classification of Gastric and Colonic Epithelial Tumours[J]. Sci Rep, 2020, 10: 1504. DOI: 10.1038/s41598-020-58467-9

    [16]

    Wang S, Zhu Y, Yu L, et al. RMDL: Recalibrated multi-instance deep learning for whole slide gastric image classification[J]. Med Image Anal, 2019, 58: 101549. DOI: 10.1016/j.media.2019.101549

    [17]

    Song Z, Zou S, Zhou W, et al. Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning[J]. Nat Commun, 2020, 11: 4294. DOI: 10.1038/s41467-020-18147-8

  • 期刊类型引用(2)

    1. 王颖飞,刘迎迎,王全林. 耳针和体针联合盐酸甲氧氯普胺注射液治疗胃癌术后胃瘫综合征的研究. 中医研究. 2024(06): 53-57 . 百度学术
    2. 刘凯,陶立德. 胰十二指肠切除术后胃排空延迟的危险因素及治疗进展. 国际外科学杂志. 2024(06): 418-423 . 百度学术

    其他类型引用(0)

图(6)  /  表(3)
计量
  • 文章访问数:  645
  • HTML全文浏览量:  162
  • PDF下载量:  71
  • 被引次数: 2
出版历程
  • 收稿日期:  2022-01-11
  • 录用日期:  2022-05-25
  • 刊出日期:  2022-07-29

目录

/

返回文章
返回
x 关闭 永久关闭