Interpretation On Sectoral Standard Artificial Intelligence Medical Device-Quality Requirements and Evaluation-Part 3: General Requirements for Data Annotation
-
摘要: 伴随机器学习技术的迭代升级,人工智能已成为医疗器械领域的新兴方向,尤其近年来发展迅速。国家药品监督管理局于2022年发布了行业标准YY/T 1833《人工智能医疗器械 质量要求和评价》系列标准,标志着我国已初步建立了人工智能医疗器械的标准体系。数据标注是人工智能医疗器械质控的重要环节,数据标注的规范化、标准化不仅是标准体系的重要方面,也决定了参考标准的准确性和可靠性,从而对数据集质量和产品质量产生重要影响。《人工智能医疗器械 质量要求和评价》第3部分为数据标注通用要求,其对人工智能医疗器械在数据标注环节的质量进行了要求,并对评价方法进行了规范。本文将对其重要内容进行解析,以期更好地开展产品质控,促进产品及行业高质量发展。Abstract: With the upgrading of machine learning technology, artificial intelligence has become an emerging direction in the field of medical devices. Especially in recent years, it has developed rapidly. In 2022, the National Medical Products Administration released the industry standard YY/T 1833 "Artificial Intelligence Medical Device-Quality Requirements and Evaluation" series, marking the initial establishment of a standard system for artificial intelligence medical devices in China. The standardization of data annotation is not only an important part of the standard system, but also determines the accuracy and reliability of reference standards, which has a significant impact on the quality of the dataset and product quality. Part 3 of "Artificial Intelligence Medical Device-Quality Requirements and Evaluation", a general requirement for data annotation, proposes the quality requirements for artificial intelligence medical devices in the data annotation process and standardizes the evaluation methods. This paper highlights its important contents, in order to better carry out product quality control and promote high-quality development of products and industries.
-
前列腺癌(prostate cancer,PCa)是指发生于前列腺上皮的恶性肿瘤,是男性生殖系统最常见的恶性肿瘤之一,也是导致男性癌症死亡的第五大原因。根据国际癌症研究机构的统计数据,2020年全球PCa新发病例约141.4万例,死亡病例37.5万例[1]。中国PCa新发病例约11.5万例,死亡病例约5.1万例[1]。与欧美国家相比,我国PCa的发病率及死亡率均较低,但近年来呈快速增长趋势,此外我国PCa患者5年生存率仅为69.2%,远低于欧美发达国家的平均水平(80%以上)[2]。其原因可能在于我国初诊PCa患者的临床分期较晚,导致预后较差[3-4]。因此,早期诊断、早期识别具有临床意义的侵袭性PCa是提高我国PCa患者生存率的关键。目前,PCa的早期诊断主要依赖于血清前列腺特异性抗原(prostate specific antigen,PSA)检测,以及经直肠前列腺指诊评估后行前列腺穿刺活检确诊。但血清PSA检测的特异性及敏感性均差强人意,尤其当血清PSA检测值落入“灰区”(4~10 μg/L)时,仅25%~30%的患者前列腺穿刺活检结果表现为阳性[5-6]。由于血清PSA检测的特异性低,致使过度诊断、过度治疗,造成了巨大的社会资源浪费,同时增加了患者不必要的痛苦。因此,基于血清PSA的PCa早期筛查一直存在争议[7]。
为解决上述问题,研究人员对检测、诊断PCa的特异性和敏感性肿瘤标志物产生了极大兴趣。PCa细胞或其所产生的物质可存在于前列腺液中,而后进入尿液,因此可通过分析尿液中的生物活性物质研究PCa[8],且以尿液作为PCa肿瘤标志物的来源,具有无创、易获得、样本量大的优势。近年来,通过对尿液的分析研究,发现了一批包括DNA、RNA、蛋白质、外泌体在内的极具潜力的候选肿瘤标志物。
1. 尿液肿瘤标志物
1.1 PCA3
PCA3是定位于第9号染色体(9q21~22)的长链非编码RNA,由Bussemakers等[9]于1999年发现,其具有高度的前列腺组织特异性,且在PCa组织及PCa转移瘤组织中过表达[10]。定量检测经直肠指诊后尿液中PCA3与PSA mRNA的浓度,两者的比值即为PCA3评分。PCA3评分是第一个获美国食品药品监督管理局(Food and Drug Administration,FDA)批准的基于尿液肿瘤标志物的检测评分[11]。Proussard等[12]回顾了关于PCA3诊断能力的临床研究,研究对象包括初次前列腺穿刺活检和重复穿刺活检的患者,PCA3预测PCa穿刺阳性结果的诊断指标曲线下面积(area under the curve,AUC)为0.64~0.83,所有纳入研究的患者PCA3在AUC方面均优于血清PSA。Lee等[13]的一项荟萃分析纳入了54项研究(17 575例患者),PCA3评分的总灵敏度、特异度和诊断优势比分别为71%(95% CI:67%~74%)、68%(95% CI:63%~74%)和5.28(95% CI:4.28~ 6.51),合并AUC为0.75 (95% CI:0.71~0.79)。研究表明,PCA3检测在诊断PCa方面优于血清PSA。
目前关于PCA3与血清PSA的研究已广泛开展,研究结论基本一致,其主要临床价值在于评估重复活检的决策,但其在判断侵袭性PCa及PCa患者预后方面的价值有限。目前存在争议的是PCA3评分最佳临界值问题,有研究指出PCA3评分取单一临界值时存在一定局限性,当PCA3评分取较低临界值时,可获得较高的阴性预测值;而取较高临界值时,可获得较高的阳性预测值;当评分位于二者之间时,存在类似于血清PSA的“灰区”[14]。通过联合其他肿瘤标志物,或许可克服上述局限。
1.2 TMPRSS2-ERG
基因融合通常由染色体重排所致,研究发现PCa也存在基因融合。2005年,Tomlins等[15]第一次发现了前列腺基因融合,包括一个横跨膜的丝氨酸蛋白酶2(transmembrane protease serines 2, TMPRSS2)基因和ETS转录因子基因(包括ETl、ETV4、ETV5、ELK4和ERG)。ETS转录基因家族与细胞增殖、凋亡、应激反应及血管生成等密切相关。研究发现,TMRPSS2-ERG融合基因存在于50%的PCa患者,可在按摩前列腺后经尿液检测到。一项纳入109例患者的队列研究显示,该融合基因诊断PCa的特异度为93%,阳性预测值为94%,但灵敏度仅为37%[16]。有趣的是,有研究发现尿液TMPRSS2-ERG联合PCA3具有额外的诊断价值,可将欧洲前列腺癌筛查随机研究风险计算模型的AUC由0.799增至0.833;与此同时,当PCA3联合TMPRSS2-ERG时,其灵敏度从68% 提高至76%[17]。根据此项研究,密歇根大学开发了一套基于尿液TMPRSS2-ERG、PCA3和血清PSA的新型PCa诊断预测模型MyProstateScore(MPS)。该模型在一项队列研究(n=1125)中得到了验证,其诊断能力优于单独血清PSA[18]。MPS用于预测PCa穿刺阳性结果的AUC为0.75。更重要的是,其预测是否为侵袭性PCa(Gleason评分≥7)的AUC为0.77,远优于单独血清PSA(AUC:0.651)[18]。为验证MPS评分对侵袭性PCa的识别能力,Sanda等[19]的一项前瞻性多中心队列研究(n=1077)显示,与单独血清PSA相比,MPS可提高侵袭性PCa的检测率。当取灵敏度95%为截断值时,检测高级别PCa的特异度从18%(单独血清PSA)提高至39%,可避免42%的不必要活检。Tosoian等[20]在研究中采用MPS诊断识别侵袭性PCa,当MPS评分<10时,其灵敏度和阴性预测值分别为96%和97%,可减少33%的不必要活检,与此同时仅漏诊3%的侵袭性PCa。综上所述,TMPRSS2-ERG对于预测侵袭性PCa具有较高的临床价值,但单独应用时灵敏度较低,与PCA3联合应用可使两者的诊断能力均获得较大提升。目前,MPS评分的成功应用提示多种肿瘤标志物联合应用可能是提高其诊断能力的研究方向。
1.3 MALAT1
MALAT1是定位于第11号染色体(11q13)的长链非编码RNA[21]。MALAT1在多种类型的恶性肿瘤中发挥促癌作用,包括肝细胞癌、肺癌和结直肠癌等[22]。研究发现,在PCa组织中也出现了MALAT1过表达,且MALAT1过表达与PCa组织的侵袭性高度相关[23]。Wang等[24]在218例PCa患者的回顾性研究和216例PCa患者的前瞻性队列研究中发现,当作为独立预测因子时,活检阳性病例的MALAT1评分显著高于活检阴性者;PSA值处于4~10 μg/L“灰区”的患者,MALAT1的AUC分别为0.670和0.742,优于血清总PSA(0.545和0.601)或游离PSA与血清总PSA的比值(0.622和0.627)。根据决策曲线分析,采用25% 为临界值,MALAT1模型在PSA为4~10 μg/L的队列中可避免30.2%~46.5% 的不必要活检,且不会遗漏任何侵袭性PCa[24]。目前,MALAT1在PCa进展及转移方面发挥重要作用,但其特异性相较于PCA3差[25]。根据现有研究,MALAT1的临床价值可用于预测癌症进展及转移,与其他特异性较高的成熟标志物联合应用,理论上具有更高的诊断价值,但相关临床研究较少,需多中心前瞻性研究进一步验证。
1.4 PSA
1985年,Graves等[26]第一次报道尿液中存在PSA。但早期对于尿液PSA诊断价值的研究结果存在矛盾,因此其诊断价值一直存在争议[27-28]。最新研究显示,尿液PSA的低表达与PCa的发生和进展相关[29]。PSA是一种激肽释放酶,由排列在腺泡和前列腺腺管内的上皮细胞产生。当癌症进展时,腺体结构发生破坏,PSA大量释放入血,因此血清PSA并不能反映PCa组织的PSA表达情况。研究发现,高级别PCa组织中存在PSA表达丢失[30-31],PCa组织中PSA的低表达与更高的Gleason评分和细胞增殖增加相关[32]。Occhipinti等[29]在队列研究中(n=527)发现,尿液PSA可直接反映前列腺组织中的PSA表达水平,其对侵袭性PCa的阴性预测值及阳性预测值分别为82.8%和47.9%,AUC为0.691,优于SOC(standard of care parameters, 由血清PSA、年龄及家族史组成的标准预测模型)的0.621,而尿液PSA联合SOC可将AUC升至0.712。当取0.4为临界值时,可避免26%的不必要活检,仅漏诊2%的侵袭性PCa。综上所述,PCa组织中的PSA表达缺失可能与癌症分期和预后相关,而尿液PSA水平与前列腺组织中的PSA表达直接相关,因此检测尿液PSA对于区分PCa与良性前列腺疾病、预测PCa分期方面具有一定的潜力。但目前关于尿液PSA的研究较少,可能与临床操作异质性较大以及临床效能较低有关,可考虑开展扩大样本量的验证研究或与其他尿液标志物联合建立评分系统,以进一步评估其临床诊断价值。
2. 基于尿液外泌体的肿瘤标志物
外泌体是一组直径为30~180 nm、具有脂质双侧膜结构的细胞外囊泡。在正常生理或病理生理过程中,几乎所有哺乳动物的细胞均可分泌外泌体,因此外泌体存在于包括尿液在内的所有体液中[33]。外泌体由内体的膜内陷产生,并在多泡体与质膜融合后分泌至微环境中,在肿瘤微环境形成、侵袭转移以及免疫逃逸等过程中发挥至关重要的作用[34-35]。由于外泌体携带了来源细胞的核酸、蛋白质及代谢产物,因此可很好地反映其来源细胞的生物学特质。此外,外泌体内容物被其脂质双层保护,可免受蛋白酶降解,是高度稳定的生物标志物来源[36]。
2.1 尿液外泌体肿瘤标志物及其联合检测
ExoDx Prostate Test是第一个被FDA认证的外泌体液体活检产品,其通过检测尿液外泌体中PCA3、ERG、SPDEF的表达水平以获得EPI(ExoDx Prostate IntelliScore)评分。EPI评分旨在对PSA“灰区”的患者进行筛查,以减少不必要的穿刺活检。EPI评分>15.6提示高级别PCa的风险增大。与PCa的其他尿液肿瘤标志物相比,ExoDx Prostate Test无需在尿液收集前进行前列腺按摩[37-38]。
Donovan等[37]对195例(PSA为4~10 μg/L)等待初次活检的患者进行ExoDx Prostate Test测试,结果显示其对于高级别PCa的阴性预测值和阳性预测值分别为97.5%和37.5%;EPI评分联合SOC诊断模型可显著提高SOC对于高级别PCa的诊断价值,将AUC由0.67提高至0.80。随后在等待初始活检且血清PSA水平在2~20 μg/L之间的队列研究(n=519)中进行了验证,结果显示EPI评分截断值为15.6时,对侵袭性PCa诊断的灵敏度和阴性预测值分别为91.9%和91.3%,AUC为0.71。ExoDx Prostate Test联合SOC诊断模型的AUC为0.73,优于SOC诊断模型(AUC:0.63),可避免27%的无效活检,仅漏诊8%的侵袭性PCa[38]。Mckiernan等[39]对504例年龄>50岁且PSA为2~10 μg/L的患者开展的前瞻性队列研究,取得了一致的研究结果,ExoDx Prostate Test联合SOC诊断模型的AUC为0.71。当EPI评分截断值为15.6时,其灵敏度及阴性预测值分别为93%和89%,可避免26%的不必要前列腺穿刺活检,总活检率为20%,侵袭性PCa漏诊率仅为7%。随后,Mckiernan[40]等在一项最新队列研究(n=229)中进一步评估了ExoDx Prostate Test对重复活检患者的诊断能力,对于诊断预测初次活检为阴性的侵袭性PCa患者,EPI评分优于ERSPC和血清PSA风险预测模型,当EPI评分临界值为15.6时,阴性预测值为92%,AUC为0.66(95% CI:0.55~0.78),可避免26%的不必要活检,仅漏诊2.6%的侵袭性PCa。该研究中71.6%的患者为白种人,14.4%的患者为非裔美国人,是目前种族群体最为多样化的研究。目前,尚无针对亚洲人群特别是中国人群的研究,ExoDx Prostate Test对于中国人群的最佳临界值、诊断预测的准确性亟待研究评估。
2.2 尿液外泌体中的微RNA
微RNA(microRNA,miRNA)是一类由内源基因编码、长度约为22个核苷酸的非编码单链RNA分子,参与转录后的基因表达调控[41]。近年来,由于miRNA与肿瘤细胞的增殖、分化、凋亡、血管生成密切相关,因此其作为潜在的肿瘤标志物日益受到广泛关注[42]。Samsonov等[43]在研究中发现,与健康受试者相比,PCa患者的尿液外泌体中miR-574-3p、miR-141及miR-21的表达显著增高。但Foj等[44]的研究发现,PCa患者尿液外泌体中miR-21及miR-375高表达,而miR-141低表达。尿液外泌体miRNA分离方法的不同,可能是导致这一差异的主要原因。该研究还发现联合检测miR-21及miR-375具有较高的诊断效能,其AUC可达0.872,但因研究纳入的样本量较小,其结果仍需临床试验进一步验证。此外,Rodríguez等[45]的研究采集了PCa患者与正常人群的尿液外泌体样本,发现PCa患者存在5种miRNA表达下调,其中miR-196a-5p及miR-501-3p具有诊断价值。目前,尿液外泌体miRNA作为PCa诊断标志物的研究尚处于起步阶段,其主要挑战为缺乏标准化的分离纯化方法,尚不清楚不同分离方法对于miRNA表达产生的影响。但外泌体miRNA仍为极具潜力的PCa肿瘤标志物,可为PCa的早期诊断及预后带来更多可能性。
3. 小结与展望
尿液肿瘤标志物在PCa早期诊断中具有广阔的发展前景,多种肿瘤标志物联合应用可提高其诊断效能。但是,各种新兴尿液肿瘤标志物之间缺乏“头对头”对比数据,由于尿液收集方法及样本处理等方面存在较大差异,不同研究之间进行比较较为困难。更重要的是,欧美人群与亚洲人群的PCa遗传特征存在较大差异[46],尿液肿瘤标志物对于亚洲人群的最佳截断值、诊断效能评估尚需更多大样本临床研究验证。
尽管PCa尿液活检存在一定的局限性,但其代表了一种有价值的非侵入性癌症检测方法,其对于早期识别侵袭性PCa,减少非必要穿刺活检,减少医疗资源浪费具有重要临床意义。或许在不久的将来,基于尿液肿瘤标志物的尿液活检方法将改变PCa的诊断和治疗模式,但需开展大规模前瞻性随机对照试验研究加以验证。
作者贡献:郝烨负责文献调研、初稿撰写;王浩负责文献整理、论文修订;李佳戈负责论文修订、终稿审核。利益冲突:所有作者均声明不存在利益冲突 -
[1] 王浩, 孟祥峰, 林晓兰, 等. 人工智能医疗器械数据集质控解决方案[J]. 医疗卫生装备, 2023, 44: 12-15. https://www.cnki.com.cn/Article/CJFDTOTAL-YNWS202302002.htm [2] 唐娜, 王浩, 钟代笛. 人工智能医疗器械监管现状分析[J]. 医疗卫生装备, 2022, 43: 54-58, 68. https://www.cnki.com.cn/Article/CJFDTOTAL-YNWS202208011.htm [3] 王浩, 李澍, 王晨希, 等. 人工智能医疗器械质量管理标准化趋势分析[J]. 中国医疗设备, 2021, 36: 20-23. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202103005.htm [4] 刘毅, 王浩, 李澍, 等. 人工智能医疗器械企业质量管理体系构建关键指标筛选研究[J]. 中国医疗设备, 2021, 36: 24-27, 43. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202103006.htm [5] 王浩, 唐桥虹, 郝烨, 等. 人工智能医疗器械标准体系设计探索[J]. 中国医疗设备, 2021, 36: 15-18, 28. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202112003.htm [6] 彭亮, 刘枭寅, 张宇晶, 等. 人工智能医疗器械国际监管比较研究[J]. 中国数字医学, 2023, 18: 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-YISZ202305001.htm [7] 国家药品监督管理局. 人工智能医疗器械 质量要求和评价 第3部分: 数据标注通用要求[S]. YY/T 1833.3-2022. [8] 王浩, 孟祥峰, 王权, 等. 人工智能医疗器械用数据集管理与评价方法研究[J]. 中国医疗设备, 2018, 33: 1-5. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX201812001.htm [9] 蔡莉, 王淑婷, 刘俊晖, 等. 数据标注研究综述[J]. 软件学报, 2020, 31: 302-320. https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB202002004.htm [10] 王权, 王浩, 孟祥峰, 等. 人员管理对人工智能医疗器械用数据集质量的影响分析[J]. 中国医疗设备, 2018, 33: 6-9. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX201812002.htm [11] 孟祥峰, 王浩, 李佳戈. 行业标准《人工智能医疗器械 质量要求和评价 第1部分: 术语》解析[J]. 协和医学杂志, 2023, 14: 1175-1179. DOI: 10.12290/xhyxzz.2023-0351 [12] 孟祥峰, 王浩, 张超, 等. 医学人工智能产品检测平台的设计[J]. 医疗卫生装备, 2023, 44: 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-YNWS202301016.htm [13] 李澍, 王浩, 王晨希, 等. 人工智能医疗器械软件生产质量管理体系特殊要求研究[J]. 中国医疗设备, 2021, 36: 15-18, 22. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202109005.htm [14] 曾雪, 王浩, 李佳戈. 分析人工智能医疗器械环境特殊要求[J]. 中国医疗设备, 2021, 36: 19-22. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202109006.htm [15] 王浩, 孟祥峰, 李澍, 等. 数据集在人工智能医疗器械质控中的角色与要求[J]. 中国医疗器械杂志, 2019, 43: 54-57. https://www.cnki.com.cn/Article/CJFDTOTAL-ZYLZ201901015.htm [16] 王海林, 冯瑞, 张晓波. 融合深度主动学习的医学图像半自动标注系统[J]. 计算机系统应用, 2023, 32: 75-82. https://www.cnki.com.cn/Article/CJFDTOTAL-XTYY202302008.htm [17] 尹兆杰. 基于人机交互的深度学习训练数据标注系统[J]. 铁路通信信号工程技术, 2021, 18: 24-30. https://www.cnki.com.cn/Article/CJFDTOTAL-TLTX202108006.htm [18] 王浩, 孟祥峰, 郝烨, 等. 行业标准《人工智能医疗器械 质量要求和评价 第2部分: 数据集通用要求》解析[J]. 协和医学杂志, 2023, 14: 1180-1184. DOI: 10.12290/xhyxzz.2023-0464 -
期刊类型引用(0)
其他类型引用(1)
计量
- 文章访问数: 566
- HTML全文浏览量: 116
- PDF下载量: 103
- 被引次数: 1