留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

人工智能医疗器械性能评价通用方法专家共识(2023)

浙江大学 中国食品药品检定研究院 海军军医大学第二附属医院

浙江大学, 中国食品药品检定研究院, 海军军医大学第二附属医院. 人工智能医疗器械性能评价通用方法专家共识(2023)[J]. 协和医学杂志, 2023, 14(3): 494-503. doi: 10.12290/xhyxzz.2023-0137
引用本文: 浙江大学, 中国食品药品检定研究院, 海军军医大学第二附属医院. 人工智能医疗器械性能评价通用方法专家共识(2023)[J]. 协和医学杂志, 2023, 14(3): 494-503. doi: 10.12290/xhyxzz.2023-0137
Zhejiang University, National Institutes for Food and Drug Control, Shanghai Changzheng Hospital. Expert Consensus on General Methods for Performance Evaluation of Artificial Intelligence Medical Devices (2023)[J]. Medical Journal of Peking Union Medical College Hospital, 2023, 14(3): 494-503. doi: 10.12290/xhyxzz.2023-0137
Citation: Zhejiang University, National Institutes for Food and Drug Control, Shanghai Changzheng Hospital. Expert Consensus on General Methods for Performance Evaluation of Artificial Intelligence Medical Devices (2023)[J]. Medical Journal of Peking Union Medical College Hospital, 2023, 14(3): 494-503. doi: 10.12290/xhyxzz.2023-0137

人工智能医疗器械性能评价通用方法专家共识(2023)

doi: 10.12290/xhyxzz.2023-0137
基金项目: 

国家重点研发计划项目 2019YFC0118800

详细信息

    通信作者:刘士远, E-mail:cjr.liushiyuan@vip.163.com
    李静莉, E-mail:lijli@nifdc.org.cn
    吴健, E-mail:wujian2000@zju.edu.cn
    1. 海军军医大学第二附属医院影像医学与核医学科,上海 200003
    2. 中国食品药品检定研究院医疗器械检定所,北京 102629
    3. 浙江大学公共卫生学院,杭州 310027

    通信作者:刘士远, E-mail:cjr.liushiyuan@vip.163.com
    李静莉, E-mail:lijli@nifdc.org.cn
    吴健, E-mail:wujian2000@zju.edu.cn
    1. 海军军医大学第二附属医院影像医学与核医学科,上海 200003
    2. 中国食品药品检定研究院医疗器械检定所,北京 102629
    3. 浙江大学公共卫生学院,杭州 310027

    通信作者:刘士远, E-mail:cjr.liushiyuan@vip.163.com
    李静莉, E-mail:lijli@nifdc.org.cn
    吴健, E-mail:wujian2000@zju.edu.cn
    1. 海军军医大学第二附属医院影像医学与核医学科,上海 200003
    2. 中国食品药品检定研究院医疗器械检定所,北京 102629
    3. 浙江大学公共卫生学院,杭州 310027

  • 中图分类号: R197.39;TP18;F253.3

Expert Consensus on General Methods for Performance Evaluation of Artificial Intelligence Medical Devices (2023)

Funds: 

National Research and Development Program of China 2019YFC0118800

More Information

    Corresponding authors: LIU Shiyuan, E-mail: cjr.liushiyuan@vip.163.com
    LI Jingli, E-mail: lijli@nifdc.org.cn
    WU Jian, E-mail: wujian2000@zju.edu.cn
    1. Department of Radiology, Shanghai Changzheng Hospital, Second Military Medical University, Shanghai 200003, China
    2. Medical Device Inspection Institute, National Institutes for Food and Drug Control, Beijing 102629, China
    3. School of Public Health, Zhejiang University, Hangzhou 310027, China

    Corresponding authors: LIU Shiyuan, E-mail: cjr.liushiyuan@vip.163.com
    LI Jingli, E-mail: lijli@nifdc.org.cn
    WU Jian, E-mail: wujian2000@zju.edu.cn
    1. Department of Radiology, Shanghai Changzheng Hospital, Second Military Medical University, Shanghai 200003, China
    2. Medical Device Inspection Institute, National Institutes for Food and Drug Control, Beijing 102629, China
    3. School of Public Health, Zhejiang University, Hangzhou 310027, China

    Corresponding authors: LIU Shiyuan, E-mail: cjr.liushiyuan@vip.163.com
    LI Jingli, E-mail: lijli@nifdc.org.cn
    WU Jian, E-mail: wujian2000@zju.edu.cn
    1. Department of Radiology, Shanghai Changzheng Hospital, Second Military Medical University, Shanghai 200003, China
    2. Medical Device Inspection Institute, National Institutes for Food and Drug Control, Beijing 102629, China
    3. School of Public Health, Zhejiang University, Hangzhou 310027, China

  • 摘要: 人工智能(artificial intelligence, AI)医疗器械的研发与转化进入活跃期, 产品的性能评价方法需要标准化且亟待创新。以促进行业发展、支撑监管、提升人工智能医疗器械产品质量为目标, 浙江大学牵头联合中国食品药品检定研究院等多家专业机构, 依托人工智能医疗器械标准化技术归口单位, 分析了人工智能医疗器械性能评价的共性问题, 对相关测试方法进行了梳理总结。本文在专家组共识的基础上, 对各种测试方法及其应用进行具体介绍, 同时对相关的测试数据抽样加以阐述, 以期在业内形成统一认识, 从而促进人工智能医疗器械性能评价方法与流程的标准化, 为人工智能医疗器械的高质量发展保驾护航。
    作者贡献:吴健、李静莉、刘士远牵头制订共识框架;应豪超、王浩负责共识内容编制;陈晋泰、徐宇扬负责撰写共识初稿;应豪超、王浩组织协调专家组成员对共识内容进行修订,并组织会议讨论;应豪超、王浩、徐宇扬负责对专家意见进行汇总,并对共识内容进行完善;吴健、李静莉、刘士远对共识全文进行最终审校并形成共识终稿。
    利益冲突:所有参与共识制订的专家组成员均声明不存在利益冲突
    专家组成员 (按姓氏首字母排序):李佳戈(中国食品药品检定研究院),李静莉(中国食品药品检定研究院),刘士远(海军军医大学第二附属医院),陆遥(中山大学),孟祥峰(中国食品药品检定研究院),钱天翼(腾讯医疗健康(深圳)有限公司),史国华(中国科学院苏州生物医学工程技术研究所),唐桥虹(中国食品药品检定研究院),王浩(中国食品药品检定研究院),吴健(浙江大学),吴凯(华南理工大学),颜子夜(广州柏视医疗科技有限公司),应豪超(浙江大学),周少华(中国科学技术大学苏州高等研究院)
    执笔者:应豪超(浙江大学公共卫生学院),王浩(中国食品药品检定研究院光机电室),徐宇扬(浙江大学计算机学院),陈晋泰(浙江大学计算机学院)
  • 图  1  AI软件产品的一般质量模型

    AI:人工智能

    表  1  AI医疗器械质量特性及示例

    分类 质量特性 含义 示例
    功能特性 功能适宜性 产品功能是正确的
    产品功能是完整的
    产品功能适合该临床场景
    肺结节辅助检测软件在CT图像上提示肺结节的位置、边界和类型,输出定量结果
    一般性能 性能效率 产品执行具体临床任务需要的时间 某软件在技术要求规定环境下读取300张Dicom图像需要10 s
    易用性 产品界面友好,容易上手,符合医生的操作习惯 肺结节辅助检测软件给出医生常用的设置,例如MPR、窗宽窗位调节
    可用性 产品在正常使用情况下能够由用户安全正确地使用 由AI控制的医疗器械给出具体的使用说明,在正常操作下不危害用户健康
    兼容性 产品能够与其他医疗器械软硬件共存的能力;产品能与自身共存的能力 不同的AI医疗器械软件可部署在同一个服务器上
    可靠性 产品在长时间运行、遭遇故障、资源被大量占用等情形下保持稳定,抵御失效 某软件在经历断网之后可以恢复数据,重新操作
    维护性 产品可被维护的程度 医生可以查看软件的运行日志,可以管理软件的用户信息
    可移植性 产品能够在不同的环境下工作 同一个产品可以安装在不同版本的操作系统上
    网络防护性 产品能够确保自身的网络安全,抵御攻击 产品临床工作时能够抵御黑客攻击,避免患者敏感数据泄露
    AI特性 泛化能力 产品能够适应陌生样本的能力 同一个产品在不同地区、不同医院的准确率保持一致
    鲁棒性 产品面对不确定性的扰动,保持性能稳定的能力 当成像设备出现噪声干扰时,AI影像处理软件的准确性保持平稳
    重复性 产品对同一输入样本应输出相同的结果 同一软件对同一影像的分类结果保持不变
    公平性 产品能够确保对不同患者群体公平的程度 同一产品在产品声明的适用范围内,性能受患者年龄、职业、性别等因素的影响程度
    透明性 产品的决策过程直观、清晰地展现给利益相关方 计算机辅助诊断软件以热力图的形式,直观地向医生、患者展示卷积神经网络的辅助决策过程
    MPR:多平面重建;AI:同图 1
    下载: 导出CSV

    表  2  17种AI医疗器械测试方法

    类别 测试方法 目的及用途
    一般性能测试 常规数据表现测试 检测模型在一般数据集上的表现,避免特殊样本过拟合
    效率测试 检测模型占用显存内存计算量等参数,排除低效率的模型
    应用场景效率测试 检测模型在应用场景下进行样本推断的效率,缩短患者等待结果的时间
    泛化能力测试 患者亚人群组合测试 利用具有多样性和变化性的数据,对模型进行测试
    压力样本测试 检测模型针对困难样本分类的能力
    混合征样本测试 检测模型识别存在多个相似标签时的多标签分类能力
    跨设备样本测试 检测模型针对不同设备采集同种数据的鲁棒性
    鲁棒性测试 自然噪声样本测试 检测模型对抗自然噪声的能力
    不合格样本测试 检测模型拒绝无法分类样本的能力,避免错误分类
    可信区域测试 确认模型的适用范围,作为鲁棒性测试的补充
    结果一致测试 验证模型的临床应用分析是否建立在关键特征分析上
    对抗攻击测试 测试模型能否抵抗部分恶意输入攻击,检测模型稳定性
    结果无偏测试 测试模型在有偏训练集上能否抵抗偏差
    不确定性测试 测试模型参数对于样本不确定性是否过于敏感
    安全性测试 隐私保护测试 验证产品是否有涉及隐私提取和泄露的行为
    模型推断攻击测试 验证产品是否能通过特定测试样本推断泄露模型参数
    模型部署攻击测试 验证产品在模型加载数据、加载预训练权重文件等部署过程中遭到攻击能否正常工作的能力
    AI: 同图 1
    下载: 导出CSV
  • [1] Chen T, Liu X, Feng R, et al. Discriminative cervical lesion detection in colposcopic images with global class activation and local bin excitation[J]. IEEE J Biomed Health Inform, 2022, 26: 1411-1421. doi:  10.1109/JBHI.2021.3100367
    [2] Lin Z, Guo R, Wang Y, et al. A framework for identifying diabetic retinopathy based on anti-noise detection and attention-based fusion[C]. International Conference on Medical Image Computing and Computer-Assisted Interven-tion. Springer, Cham, 2018: 74-82.
    [3] Chen J, Yu B, Lei B, et al. Doctor imitator: A graph-based bone age assessment framework using hand radiographs[C]. International Conference on Medical Image Comput-ing and Computer-Assisted Intervention. Springer, Cham, 2020: 764-774.
    [4] International Electrotechnical Commission. PWI 62-3 ED1: Artificial Intelligence/Machine Learning-enabled Medical Device-Performance Evaluation Process[EB/OL]. [2023-03-18]. https://www.iec.ch/ords/f?p=103:38:402197631962789::::FSP_ORG_ID,FSP_APEX_PAGE,FSP_PROJECT_ID:1245,23,107066.
    [5] International Electrotechnical Commission. PNW 62-411 ED1: Testing of Artificial Intelligence/Machine Learning-enabled Medical Devices[EB/OL]. [2023-03-18]. https://www.iec.ch/ords/f?p=103:38:402197631962789::::FSP_ORG_ID,FSP_APEX_PAGE,FSP_PROJECT_ID:1245,23,109273.
    [6] 国家药品监督管理局. 人工智能医疗器械质量要求和评价第1部分: 术语YY/T 1833.1-2022[S]. 北京: 中国标准出版社. 2022.
    [7] 国家药品监督管理局. 人工智能医疗器械质量要求和评价第2部分: 数据集通用要求YY/T 1833.2-2022[S]. 北京: 中国标准出版社. 2022.
    [8] 国家药品监督管理局. 人工智能医疗器械质量要求和评价第3部分: 数据标注通用要求YY/T 1833.3-2022[S]. 北京: 中国标准出版社. 2022.
    [9] 国家药品监督管理局. 人工智能医疗器械肺部影像辅助分析软件算法性能测试方法YY/T 1858-2022[S]. 北京: 中国标准出版社. 2022.
    [10] Huang X, Kwiatkowska M, Wang S, et al. Safety verification of deep neural networks[C]. Computer Aided Verification: 29th International Conference, CAV 2017, Heidelberg, Germany, July 24—28, 2017, Proceedings, Part Ⅰ 30. Springer International Publishing, 2017: 3-29.
    [11] Montano JJ, Palmer A. Numeric sensitivity analysis applied to feedforward neural networks[J]. Neural Comput Appl, 2003, 12: 119-125. doi:  10.1007/s00521-003-0377-9
    [12] Bunel RR, Turkaslan I, Torr P, et al. A unified view of piecewise linear neural network verification[J/OL]. [2023-03-18]. https://arxiv.org/abs/1711.00455v2.
    [13] Tang S, Gong R, Wang Y, et al. Robustart: Bench-marking robustness on architecture design and training techniques[J/OL]. [2023-03-18]. https://arxiv.org/abs/2109.05211.
    [14] Tian Y, Pei K, Jana S, et al. Deeptest: Automated testing of deep-neural-network-driven autonomous cars[C]. Proceedings of the 40th international conference on software engineering, 2018: 303-314.
    [15] Singh G, Gehr T, Püschel M, et al. An abstract domain for certifying neural networks[EB/OL]. [2023-03-18]. https://www.sri.inf.ethz.ch/publications/singh2019domain.
    [16] Wang L, Wang H, Xia C, et al. Toward standardized premarket evaluation of computer aided diagnosis/detection products: insights from FDA-approved products[J]. Expert Rev Med Devices, 2020, 17: 899-918. doi:  10.1080/17434440.2020.1813566
    [17] 中华医学会放射学分会, 中国食品药品检定研究院, 国家卫生健康委能力建设与继续教育中心, 等. 胸部CT肺结节数据集构建及质量控制专家共识[J]. 中华放射学杂志, 2021, 55: 104-110.
    [18] 陈耀龙, 罗旭飞. 临床实践指南的制订方法与步骤[J]. 中华传染病杂志, 2019, 37: 523-526. doi:  10.3760/cma.j.issn.1000-6680.2019.09.003
    [19] 陈耀龙, 罗旭飞, 王吉耀, 等. 如何区分临床实践指南与专家共识[J]. 协和医学杂志, 2019, 10: 403-408. doi:  10.3969/j.issn.1674-9081.2019.04.018
    [20] 北京协和医院罕见病多学科协作组, 中国罕见病联盟. 氯巴占治疗难治性癫痫专家共识(2022)[J]. 协和医学杂志, 2022, 13: 768-782. doi:  10.12290/xhyxzz.2022-0421
    [21] BS PD ISO/IEC TR 29119-11: 2020, Software and systems engineering: Software testing— Part 11: Guidelines on the testing of AI-based systems[EB/OL]. [2023-03-18]. https://www.iso.org/obp/ui/#iso:std:iso-iec:tr:29119:-11:ed-1:v1:en.
    [22] Wang L, Wang H, Xia C, et al. Toward standardized premarket evaluation of computer aided diagnosis/detection products: insights from FDA-approved products[J]. Expert Rev Med Devices, 2020, 17: 899-918. doi:  10.1080/17434440.2020.1813566
    [23] Wang H, Meng X, Zhang C, et al. Performance Assess-ment of Artificial Intelligence Medical Device Software Using Synthetic Data[C]. 2021 IEEE International Conference on Real-time Computing and Robotics (RCAR), 2021: 444-448.
    [24] Hess DE, Roddy RF, Faller W. Uncertainty analysis applied to feedforward neural networks[J]. Ship Technol Res, 2007, 54: 114-124. doi:  10.1179/str.2007.54.3.003
    [25] Choi JY, Choi CH. Sensitivity analysis of multilayer perceptron with differentiable activation functions[J]. IEEE Trans Neural Netw, 1992, 3: 101-107. doi:  10.1109/72.105422
    [26] IEEE. IEEE Recommended Practice for the Quality Management of Datasets for Medical Artificial Intelligence[J]. IEEE, 2022. doi:  10.1109/IEEESTD.2022.9812564.
  • 加载中
图(1) / 表(2)
计量
  • 文章访问数:  1080
  • HTML全文浏览量:  310
  • PDF下载量:  980
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-03-19
  • 录用日期:  2023-05-08
  • 网络出版日期:  2023-05-16
  • 刊出日期:  2023-05-30

目录

    /

    返回文章
    返回

    【温馨提醒】近日,《协和医学杂志》编辑部接到作者反映,有多名不法人员冒充期刊编辑发送见刊通知,鼓动作者添加微信,从而骗取版面费的行为。特提醒您,本刊与作者联系的方式均为邮件通知或电话,稿件进度通知邮箱为:mjpumch@126.com,编辑部电话为:010-69154261,请提高警惕,谨防上当受骗!如有任何疑问,请致电编辑部核实。谢谢!