-
摘要: 当前医学人工智能标准化进程尚处于萌芽阶段,难以满足医学人工智能产品在研发、部署、管控、评估以及指导等多方面的需求。这一方面导致人工智能产品的研发过程难以规范化,增加了研发成本,影响了产品质量;另一方面也造成了人工智能产品难以进行统一的交互、比较和评价,可能导致产品被错误评估,从而误导医学人工智能产品的研发方向,因此建立成熟统一的医学人工智能标准体系成为当务之急。为推动医学人工智能标准体系从萌芽阶段走向成熟,本文从医学数据标准、标准数据集、基准和规范/指南4个方面深入分析医学人工智能标准的发展历程,揭示当前医学人工智能标准中存在的问题,以期为相关研究提供参考和借鉴。
-
关键词:
- 医学人工智能标准体系 /
- 数据标准 /
- 标准数据集 /
- 测试基准 /
- 规范
Abstract: The standardization of medical artificial intelligence (AI) is currently in its infancy and falls short of meeting the needs for the development, deployment, control, assessment, and guidance of medical AI products. This not only makes it difficult to standardize the research and development process and therefore increase the cost and affect the quality of the products, but also leads to challenges in achieving unified interaction, comparison, and evaluation of AI products. It may result in incorrect estimation and evaluation of products, thus misguiding the direction of medical AI development. Consequently, establishing a mature and unified standard system for medical AI has become an urgent priority. To facilitate the advancement of the medical AI standard system from its nascent stage to maturity, we conduct an in-depth analysis of the development history of medical AI standards from four aspects: medical data standards, standard datasets, benchmarks, and norms/guidelines. By revealing the problems in the current medical AI standards, we aim to provide a reference for related research. -
近年来, 我国乳腺癌发病率呈快速上升趋势, 已超过世界平均增长水平(2%), 北京、上海等大城市的增长率甚至达到了5%左右[1]。乳腺癌已成为我国女性最常见的恶性肿瘤, 每年新发乳腺癌26.9万例, 死亡7.0万例[2]。如此严峻的背景下, 早发现、早诊断和早治疗不仅关系到乳腺癌患者的个体生存效果, 同时也成为影响国计民生的重大课题。
欧美发达国家自20世纪80年代起已普遍开展以乳腺X线摄影为手段的乳腺癌筛查, 虽然对于筛查的成本效益以及过度诊断问题存在一些争议, 但其筛查效果显著, 乳腺癌早期诊断率明显升高, 死亡率明显下降。英国乳腺癌筛查独立评估委员会的系统评价提示, 筛查使乳腺癌的死亡率下降20%, 美国预防服务工作组(U.S. preventive services task force, USPSTF)的荟萃分析也提示筛查使乳腺癌的死亡风险下降16%[3-4]。中国在乳腺癌筛查方面亦开展了一系列研究和实践, 本文对中国女性乳腺癌筛查的现状以及适宜模式进行探讨。
1. 中国女性乳腺癌筛查现状
中国从20世纪80年代开始进行了不同规模、不同手段的乳腺癌筛查相关研究或实践。早期筛查工作多采用的是临床检查结合近红外线扫描, 少数结合了超声或X线摄影。大规模的筛查工作包括“全国百万妇女乳腺普查工程”和“两癌(乳腺癌和宫颈癌)筛查”。“全国百万妇女乳腺普查工程”始于2005年4月, 由中国抗癌协会发起、美国癌症协会提供技术支持, 计划在6年内对全国100万女性进行4次规范性乳腺普查, 以期发现中国女性乳腺癌的流行病学特征, 为更好地在中国开展乳腺癌普查提供重要的可靠资料。截止2007年, 应用体检、超声及X线摄影对118 273例35~70岁女性进行了乳腺癌筛查, 共检出乳腺癌779例(660/10万), 其中271例(34.8%)为早期乳腺癌[5]。参加筛查的单位中, 绝大多数初次参与乳腺癌筛查工作, 且几乎均是缺乏专业经验的一般医务人员[5]。后续由于各种原因, 该项目提前终止, 也未见到更新的数据报道。全国农村妇女“两癌(乳腺癌和宫颈癌)筛查”始于2009年, 由国家卫生和健康委员会(原卫生部)和全国妇女联合会牵头, 筛查的第一阶段(2009—2011年)主要采用体格检查方式, 从第二阶段(2012—2015年)开始采用体格检查联合超声进行初筛, 可疑者加做X线摄影, 筛查的年龄从最初的35~59岁扩展到35~64岁。
除了这两项大规模的筛查工作外, 最近也有一些针对中国女性乳腺癌筛查的研究报道[6-9]。由于这些筛查工作均未进行随机对照, 也未进行规范随访, 故虽积累了一些乳腺癌筛查相关工作经验, 但无法提供循证医学证据。对于乳腺癌筛查需要解决的筛查对象和手段问题尚无统一的规范或共识, 虽然一些指南如《中国抗癌协会乳腺癌诊治指南与规范(2017年版)》[10]涉及了相关内容, 但基本是照搬了美国国家综合癌症网络(National Comprehensive Cancer Network, NCCN)指南。本中心从2006年开始在“十一五”和“十二五”国家科技支撑计划及北京市科学技术委员会重大专项科技计划的支持下, 通过随机对照临床研究对中国女性乳腺癌筛查适宜模式进行了深入探索。
2. 中国女性乳腺癌筛查适宜模式探索
2.1 中国女性乳腺癌发病特点
中国女性乳腺癌发病特点与西方女性存在显著差别[11]。与西方同龄女性相比, 中国女性的乳腺体积相对较小且致密型乳腺比例高[12-13], 这导致西方筛查普遍采用的乳腺X线摄影对中国女性的敏感度较差[14]; 此外, 中国女性的乳腺癌发病高峰年龄为45~55岁, 比西方女性年轻10~20岁[15-16]。X线摄影对年轻女性的敏感度亦较差[17-18], 中国乳腺癌发病年轻化的特点导致X线摄影可能并不适合中国女性, 加之我国不同地区的经济水平和乳腺癌筛查资源配置不尽相同, 因此乳腺癌筛查模式不能照搬西方国家。
2.2 筛查对象
由于男性乳腺癌发病率较低, 因此筛查对象主要为女性。欧美国家对适龄女性通常采用普查方式, 但中国仍为发展中国家, 而且发病率相对较低, 普查模式的经济压力较大, 为提高成本效益, 筛查对象应设为高危女性。欧美国家通常采用Gail模型进行乳腺癌风险评估来筛选高危人群[19], 目前我国亦借鉴此模型进行乳腺癌风险评估, 但中国女性的乳腺癌高危因素与西方人群并不相同[11], 因此需要建立适合中国女性的乳腺癌风险评估模型。
2.3 筛查年龄
欧美国家乳腺癌筛查起始年龄普遍为40岁, 但2015至2016年多个国际权威医学机构对筛查指南中的起始年龄进行了调整。世界卫生组织国际癌症研究中心(International Agency for Research on Cancer, IARC)认为X线筛查降低50~69岁及70~74岁女性乳腺癌死亡率的证据充分, 而对降低40~49岁女性乳腺癌死亡率的证据有限[20]。美国癌症协会(American Cancer Society, ACS)将筛查起始年龄从40岁改为45岁:45~54岁女性应每年筛查一次, 55岁以上女性应每1~2年接受一次乳腺X线摄影[21]。USPSTF推荐筛查起始年龄为50岁, 结束年龄为74岁, 频率为每2年一次[22]。我国女性乳腺癌的发病高峰年龄比西方国家提前了10年以上, 因此笔者建议中国女性乳腺癌筛查的起始年龄为40岁, 对于存在BRCA基因突变、直系亲属中有40岁以下乳腺癌或者男性乳腺癌家族史等高危因素的女性, 可考虑提前至35岁。
对于乳腺癌影像筛查的停止年龄, 目前尚缺乏相关研究, 大部分国际随机对照研究均把65岁或70岁作为筛查年龄的上限[23-25]。但老年女性乳腺癌的发病率仍然较高, 因此笔者建议:(1)老年女性是否停止筛查需要结合个人身体健康状况、预期寿命以及各种合并症综合考虑, 如果合并症多, 预期寿命有限, 则无需进行乳腺癌筛查; (2)我国乳腺癌筛查的年龄上限可设为70岁, 对于70岁以上老年女性可考虑定期自检, 出现症状时进行影像学检查。
2.4 筛查手段及模式
乳腺癌筛查手段包括乳腺癌知识宣教、乳腺自我检查、医生体格检查以及乳腺影像学检查。
2.4.1 知识宣教
乳腺癌知识宣教对于提高个体防癌意识和早期发现具有重要意义, 适合所有成年女性[26]。成年女性需要熟悉自己的乳腺以及乳腺的任何变化。宣教可通过报刊、杂志、视频以及网络等各种途径, 内容包括乳腺常见疾病表现, 乳腺癌高危因素以及如何进行乳腺自我保健等。
2.4.2 自我检查和医生体格检查
对于乳腺自我检查以及医生体格检查目前仍缺乏相关循证医学证据支持[27-28], 但其可提高乳腺癌的防范意识以及进行乳腺癌风险评估。尤其在中国尚缺乏全国性乳腺癌普查的情况下, 推荐所有女性进行定期乳腺自我检查以及医生体格检查。
2.4.3 影像学检查
乳腺的影像学检查主要包括乳腺超声检查、X线摄影以及磁共振成像。乳腺癌的影像学检查已被证实可提高早期诊断率, 降低死亡率[4]。
2.4.3.1 X线摄影和乳腺超声检查
在欧美等国家指南中, 均推荐乳腺X线摄影作为乳腺癌筛查的主要手段。但我国女性发病年龄轻, 乳腺小且致密, 导致其对X线摄影的敏感度和特异度较低[12-14]。
乳腺超声检查和X线摄影用于乳腺癌筛查的大规模随机对照研究较少。美国放射学会成像网络(American College of Radiology Imaging Network, ACRIN)6666研究是欧美国家纳入乳腺超声作为筛查手段的一项前瞻性随机对照研究[29-30]。该研究发现, 乳腺超声对乳腺癌检出率与X线摄影相当, 而且超声发现的乳腺癌中91.4%为浸润性癌, X线摄影发现的乳腺癌中浸润性癌仅占69.5%[31], 即超声漏诊的乳腺癌大部分是仅表现为钙化的原位癌, 而X线摄影漏诊更多为浸润性癌。原位癌不一定发展为浸润性癌, 而浸润性癌则会进一步发展甚至转移。这项研究结果在美国门诊患者回顾性分析中亦得到了证实[32]。由本中心牵头的一项全国多中心乳腺超声与X线摄影的前瞻性随机对照研究, 对13 000多例高危女性分别随机采用X线摄影、超声、X线摄影联合超声进行筛查, 检出乳腺癌30例, 0期和Ⅰ期患者占50%, 超声和X线摄影均阳性者15例, 仅超声阳性者14例, 仅X线摄影阳性者1例, 乳腺超声筛查的敏感度和准确度均显著优于X线摄影[33]。本中心研究还发现, 采用乳腺X线摄影筛查, 每发现1例乳腺癌需30万人民币/年, 而采用超声筛查仅需5万人民币/年[33]。“两癌筛查”的一项回顾性研究也提示中国女性乳腺超声检查的敏感度优于X线摄影, 尤其是绝经前女性超声的优势更为明显[34]。可见, 虽然欧美等国家的指南不推荐乳腺超声作为乳腺癌筛查的主要手段, 而仅作为X线摄影的补充手段, 其主要原因并非乳腺超声筛查效果不如X线摄影, 而是缺乏乳腺超声用于筛查的相关循证医学证据。在欧美国家, 乳腺超声检查通常费用高于X线摄影, 且用于筛查不能被保险报销。近年来中国相关研究证明了超声的优势, 同时中国超声筛查比X线摄影更便宜, 无辐射和不适等副作用, 结合中国人群普遍依从性差的现状, 笔者推荐乳腺超声作为中国人群的首选筛查手段。
2.4.3.2 磁共振成像
对于乳腺磁共振成像, 由于其敏感度高、特异度低, 且检查费用高、时间长, 因此建议仅用于以下高危女性的补充检查:(1)乳腺癌相关基因突变; (2)在10~30岁时接受过胸部放射治疗; (3)乳腺癌风险评估模型提示终生患癌风险20%~25%及以上[35]。
2.4.4 筛查模式
欧美国家乳腺癌筛查通常采用对适龄女性全部行乳腺X线摄影的方式, 结合中国国情及前期临床研究和实践, X线摄影的普查方式并不合适中国女性。笔者认为, 首先应对所有女性进行乳腺癌相关知识宣教, 提高中国女性的防癌意识, 定期进行乳腺自检。对于40~70岁女性, 可考虑每年进行乳腺癌患病风险评估, 低危者进行查体, 高危者进行每年一次乳腺影像学检查, 检查手段首选超声, 必要时辅助X线摄影或磁共振成像。
3. 结论
中国女性乳腺癌发病率有快速增长的趋势, 但筛查尚缺乏标准的规范和流程。中国女性的乳腺癌发病特点以及经济发展水平同欧美发达国家存在很大差别, 其筛查模式可能并不适合中国人群, 需建立适宜中国国情的乳腺癌筛查模式, 从而提高成本效益和早期诊断率。
作者贡献:郑欣雅负责数据处理、撰写论文;黄运有负责论文修订;张奕婷、翁晟杰负责文献检索;张知非、詹剑锋提出选题思路、修订和审校论文。利益冲突:所有作者均声明不存在利益冲突 -
[1] Shehab M, Abualigah L, Shambour Q, et al. Machine learning in medical applications: A review of state-of-the-art methods[J]. Comput Biol Med, 2022, 145: 105458. DOI: 10.1016/j.compbiomed.2022.105458
[2] Rajpurkar P, Chen E, Banerjee O, et al. AI in health and medicine[J]. Nat Med, 2022, 28: 31-38. DOI: 10.1038/s41591-021-01614-0
[3] Varma JR, Fernando S, Ting BY, et al. The Global Use of Artificial Intelligence in the Undergraduate Medical Curriculum: A Systematic Review[J]. Cureus, 2023, 15: e39701.
[4] Grunhut1 J, Marques O, WyattNeeds ATM. Challenges, and Applications of Artificial Intelligence in Medical Education Curriculum[J]. JMIR Med Educ, 2022, 8: e35587. DOI: 10.2196/35587
[5] Sim JZT, Fong QW, Huang W, et al. Machine learning in medicine: what clinicians should know[J]. Singapore Med J, 2023, 64: 91-97.
[6] 国家药品监督管理局. 人工智能医疗器械质量要求和评价第4部分: 可追溯性[EB/OL]. (2023-09-05)[2023-11-10]. https://std.samr.gov.cn/hb/search/stdHBDetailed?id=05E9A95426E17056E06397BE0A0A1931. [7] 史雪莲, 陈敏. 医疗人工智能标准体系研究[J]. 中国卫生信息管理杂志, 2019, 12: 759-762. https://www.cnki.com.cn/Article/CJFDTOTAL-WSGL201906027.htm [8] 张知非, 杨郑鑫, 黄运有, 等. 医学大数据与人工智能标准体系: 现状、机遇与挑战[J]. 协和医学杂志, 2021, 12: 614-620. DOI: 10.12290/xhyxzz.2021-0472 [9] 马琳, 邓宏勇. 国内外临床研究元数据标准: 特点及现状[J]. 中国循证医学杂志, 2023, 23: 478-484. https://www.cnki.com.cn/Article/CJFDTOTAL-ZZXZ202304009.htm [10] 周晓梅, 李烁, 崇雨田, 等. 临床研究数据标准化工作的思考[J]. 临床内科杂志, 2022, 39: 790-792. https://www.cnki.com.cn/Article/CJFDTOTAL-LCLZ202211024.htm [11] Lee AJ, Kim KW, Shin Y, et al. CDISC-compliant clinical trial imaging management system with automatic verification and data Transformation: Focusing on tumor response assessment data in clinical trials[J]. J Biomed Inform, 2021, 117: 103782. DOI: 10.1016/j.jbi.2021.103782
[12] Duda SN, Kennedy N, Conway D, et al. HL7 FHIR-based tools and initiatives to support clinical research: a scoping review[J]. J Am Med Inform Assoc, 2022, 29: 1642-1653. DOI: 10.1093/jamia/ocac105
[13] Ayaz M, Pasha MF, Alzahrani MY, et al. The Fast Health Interoperability Resources (FHIR) Standard: Systematic Literature Review of Implementations, Applications, Challenges and Opportunities[J]. JMIR Med Inform, 2021, 9: e21929. DOI: 10.2196/21929
[14] 张丽鑫, 钱庆, 唐明坤, 等. 人工智能医疗器械标准数据集构建现状[J]. 中华医学图书情报杂志, 2021, 30: 1-8. https://www.cnki.com.cn/Article/CJFDTOTAL-YXTS202108001.htm [15] Wu B, Fu L, Guo X, et al. Multi-omics profiling and digital image analysis reveal the potential prognostic and immunotherapeutic properties of CD93 in stomach adenocarcinoma[J]. Front Immunol, 2023, 25: 984816.
[16] 石镇维, 刘再毅. 重视医学影像人工智能数据库的标准化建设[J]. 协和医学杂志, 2021, 12: 599-601. DOI: 10.12290/xhyxzz.2021-0507 [17] 马兆毅, 蒋薇, 宋超, 等. 肺部病变多模态影像和乳腺癌X线医学人工智能标准数据集研究[J]. 科技成果管理与研究, 2023, 18: 89-91. [18] 王辉, 刘靖雅, 李哲, 等. 人工智能心电数据库的研究与应用[J]. 中国医疗设备, 2020, 35: 17-22. https://www.cnki.com.cn/Article/CJFDTOTAL-YLSX202010003.htm [19] Yoo H, Yum Y, Park SW, et al. Standardized Database of 12-Lead Electrocardiograms with a Common Standard for the Promotion of Cardiovascular Research: KURIAS-ECG[J]. Healthc Inform Res, 2023, 29: 132-144.
[20] 于伟泓, 张潇, 吴婵, 等. 糖尿病视网膜病变眼底彩照人工智能研究标准数据库的建立规范[J]. 协和医学杂志, 2021, 12: 684-688. DOI: 10.12290/xhyxzz.2021-0613 [21] 中华医学会外科学分会外科手术学学组, 中华医学会器官移植学分会肝移植学组, 中国医师协会器官移植医师分会移植免疫学专业委员会. 肝脏移植标准数据集[J]. 器官移植, 2020, 11: 126-175. https://www.cnki.com.cn/Article/CJFDTOTAL-QGYZ202001021.htm [22] Zhou N, Yuan X, Du Q, et al. FerrDb V2: update of the manually curated database of ferroptosis regulators and ferroptosis-disease associations[J]. Nucleic Acids Res, 2023, 51: D571-D582.
[23] Kaushal A, Altman R, Langlotz, C. Geographic distribution of US cohorts used to train deep learning algorithms[J]. J Am Med Assoc, 2020, 324: 1212-1213.
[24] WHO. WHO Issues First Global Report on Artificial Intelligence (AI) in Health and Six Guiding Principles for Its Design and Use[EB/OL]. (2021-08-28)[2023-11-10]. https://www.who.int/news/item/28-06-2021-who-issues-first-global-report-on-ai-in-health-and-six-guiding-principles-for-its-design-and-use.
[25] Blagec K, Kraiger J, Frühwirt W, et al. Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals[J]. J Biomed Inform, 2023, 137: 104274.
[26] Gao Y, Dligach D, Miller T, et al. DR. BENCH: Diagno-stic Reasoning Benchmark for Clinical Natural Language Processing[J]. J Biomed Inform, 2023, 138: 104286.
[27] Karargyris A, Umeton R, Sheller MJ, et al. Federated benchmarking of medical artificial intelligence with MedPerf[J]. Nat Mach Intell, 2023, 5: 799-810.
[28] Werdiger F, Visser M, Bivard A, et al. Benchmark dataset for clot detection in ischemic stroke vessel-based imaging: CODEC-Ⅳ[J]. Neuroimage, 2023, 271: 119985.
[29] Wagner M, Müller-Stich BP, Kisilenko A, et al. Compara-tive validation of machine learning algorithms for surgical workflow and skill analysis with the HeiChole benchmark[J]. Med Image Anal, 2023, 86: 102770.
[30] Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620: 172-180.
[31] Walker HL, Ghani S, Kuemmerli C, et al. Reliability of Medical Information Provided by ChatGPT: Assessment Against Clinical Guidelines and Patient Information Quality Instrument[J]. J Med Internet Res, 2023, 25: e47479.
[32] Biever C. The easy intelligence tests that AI chatbots fail[J]. Nature, 2023, 619: 686-689.
[33] 李志勇, 邱晓岚, 杨建龙, 等. WHO《为基于人工智能的医疗设备生成证据: 训练、验证和评估框架》解析及其对我国医学装备行业的启示[J]. 中国医学装备, 2022, 19: 157-167. https://www.cnki.com.cn/Article/CJFDTOTAL-YXZB202207034.htm [34] Niemiec E. Will the EU Medical Device Regulation help to improve the safety and performance of medical AI devices?[J]. Digit Health, 2022, 30: 20552076221089079.
[35] 国家标准化管理委员会. 信息技术人工智能平台计算资源规范[EB/OL]. (2022-10-12)[2023-11-10]. https://std.samr.gov.cn/gb/search/gbDetailed?id=EB58F4DA9161B2A2E05397BE0A0A7D33. [36] 国务院. 关于加强科技伦理治理的意见[EB/OL]. (2022-03-20)[2023-11-10]. https://www.gov.cn/zhengce/2022-03/20/content_5680105.htm. [37] 国务院. 生成式人工智能服务管理暂行办法[EB/OL]. (2023-07-10)[2023-11-10]. https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.htm. -
期刊类型引用(2)
1. 温锦涛,程欢欢,王琳媛,张昆鹏,王晓贞. 射野分布对胰腺癌调强计划剂量的影响. 分子影像学杂志. 2018(04): 469-472 . 百度学术
2. 孙小梅,夏文明,姜新,陈祥,李涛,曲雅勤. 局部晚期胰腺癌容积旋转调强与五野调强放疗的剂量学比较. 吉林大学学报(医学版). 2017(02): 365-368 . 百度学术
其他类型引用(2)
计量
- 文章访问数: 721
- HTML全文浏览量: 331
- PDF下载量: 259
- 被引次数: 4