The Impact of Generative Artificial Intelligence on the Development, Evaluation, and Application of Clinical Practice Guidelines
-
摘要:
生成式人工智能(generative artificial intelligence,GAI)是指能够从训练数据生成全新内容(如文本、图像或音频等)的人工智能技术。GAI工具不仅在系统评价的文献筛选、数据提取和文献评价等方面显示出快速、高效的潜力,还可用于指南的评价和传播,提高指南的可读性和推广效率。但GAI工具生成内容的准确性、相关引证证据的合理性、证据等级以及数据的可靠性仍需验证,且数据的隐私保护和伦理问题也是面临的挑战。本文旨在概述GAI工具在指南制订、评价、传播与实施中的应用现状,探索GAI工具在指南领域应用的可行性和新模式,以期提高指南的制订效率和质量,更好地服务指南制订者和使用者。
Abstract:Generative artificial intelligence (GAI) refers to AI technology capable of generating new content such as text, images, or audio from training data. GAI tools not only demonstrate rapid and efficient potential in literature screening, data extraction, and literature appraisal in systematic reviews, but can also be used for guideline evaluation and dissemination, enhancing the readability and promotion efficiency of guidelines. However, the accuracy of content generated by GAI tools, the rationality of cited evidence, the level of evidence, and the reliability of data still need verification. Additionally, data privacy protection and ethical issues are challenges that need to be addressed. This article aims to overview the current status of GAI tools in the formulation, evaluation, dissemination, and implementation of guidelines, explore the feasibility and new models of GAI tools in the field of guidelines, and improve the efficiency and quality of guideline formulation to better serve guideline developers and users.
-
生成式人工智能(generative artificial intelligence,GAI)是指能够从训练数据生成全新且有意义内容(如文本、图像或音频等) 的人工智能(artificial intelligence,AI)技术[1],而大语言模型(large language models,LLMs)是基于文本数据理解和生成人类语言的AI系统。自2022年末ChatGPT 3.5发布后,研究者们开发了许多不同类型、语言和用途的通用GAI工具,如OpenAI发布的GPT-4.0及GPT-4o,可用于医学知识问答、辅助医学研究开展以及指导医学实践等多个领域;再如由旧金山Midjourney公司开发的Midjourney AI可将文本提示转化为视觉艺术(如图片等)。国内的GAI工具如深度求索(DeepSeek) 和Kimi等,也在知识问答等领域发挥重要作用。上述GAI工具在医学领域的重要作用之一,是为临床医生或研究者提供问答咨询,形式和作用类似于交互式的临床实践指南(下文简称“指南”)。然而,尽管目前已有许多研究采用GAI工具问答医学某一领域知识,并将咨询结果与指南中的推荐意见进行对比(表 1)[2-11],但这些工具回答问题的准确性、全面性和证据基础尚需进一步验证。
表 1 应用GAI工具咨询医学特定领域知识与指南推荐意见对比的研究Table 1. Research on the application of GAI tools to consult medical domain-specific knowledge and compare guideline recommendations文献 发表年份 国家 GAI工具 疾病/领域 问题数量 侧重点 指南来源 主要研究结果 主要研究结论 Ho等[2] 2024 美国 ChatGPT 3.5和ChatGPT 4.0 梅尼埃病 16 常见
问题AAO-HNS ChatGPT 3.5对5个问题的回答表现全面,而ChatGPT 4.0对9个问题的回答表现全面(31.3%比56.3%,P=0.2852);ChatGPT 3.5与ChatGPT 4.0对所有问题的回答均较为详尽(P=1.0000);其中ChatGPT 3.5在5个问题的回答中存在误导性,而ChatGPT 4.0在3个问题的回答中存在误导性(31.3% 比18.75%,P=0.6851) ChatGPT 4.0在数据来源质量方面显著优于ChatGPT 3.5;但与指南相比,两个模型在综合性、可读性和减少误导性方面均存在可改进的空间 Hoang等[3] 2024 美国 ChatGPT 3.5和ChatGPT 4.0 神经根型颈椎病 14 诊断和
治疗NASS ChatGPT 4.0的平均完整性为46%,而ChatGPT 3.5为34%,前者较后者高12%;ChatGPT 4.0的输出平均Flesch可读性得分为15.24,难以阅读,需具备大学毕业水平才能理解,而ChatGPT 3.5的可读性得分更低(8.73),更加难读,需具备专业教育水平才能理解 与指南相比,ChatGPT模型可对NASS关于神经根型颈椎病的指南问题提供安全、准确的回答,但回答内容并不完整 Gomez-Cabello等[4] 2024 美国 ChatGPT 3.5、ChatGPT 4.0及Gemini 整形外科术后护理 32 常见
问题ASPS CPG ChatGPT 3.5的likert量表平均得分最高(4.18±0.93)(P=0.849),而Gemini的回答可读性(P=0.001)和可理解性(P=0.014)方面更好;两模型回答的可操作性方面无统计学差异(P=0.830) 与指南相比,虽然LLMs在术后患者护理方面问题的回答显示出作为辅助工具的潜力,但仍需进一步优化和调整 Shiraishi等[5] 2024 日本 ChatGPT 3.5 眼睑下垂 11 管理 ASPS CPG 最终分析共包含11个问题,ChatGPT 3.5正确回答了其中的61.3%;在回答临床问题时,ChatGPT 3.5的英文回答准确率显著高于日文(76.4%比46.4%,P=0.004),且字数更多(123比35.9,P=0.004);在证据质量、推荐强度和参考文献匹配度方面无统计学差异;ChatGPT 3.5提出了697篇参考文献,但其中仅216篇(31.0%)文献是真实存在的 与指南相比,ChatGPT 3.5在回答眼睑下垂管理问题时展示了作为辅助工具的潜力;然而,现有AI模型存在明显的局限性,仅可作为辅助工具补充医学专业人员相关知识 Altintaş等[6] 2024 土耳其 ChatGPT 4.0,Perplexity,Bing及Bard AI 尿路结石 115 诊断、
治疗和
预后EAU Perplexity和ChatGPT 4.0的平均得分分别为4.68(标准差:0.80)和4.80(标准差:0.47),二者的得分与Bing和Bard的得分存在显著差异(Bing比Perplexity,P<0.001;Bard比Perplexity,P<0.001;Bing比ChatGPT,P<0.001;Bard比ChatGPT,P<0.001)。Bing的平均得分为4.21(标准差:0.96),而Bard的平均得分为3.56(标准差:1.14),二者之间也存在显著差异(Bing比Bard,P<0.001) ChatGPT 4.0和Perple-xity生成的回答与EAU指南的推荐意见相一致;这些LLMs未来在向医生提供咨询方面可能发挥重要作用,特别是在尿路结石领域 Piazza等[7] 2024 意大利 ChatGPT 3.5和4.0 卵巢癌 8 治疗 AIOM AIOM指南与AI模型(ChatGPT 3.5、ChatGPT 4.0及带提示的ChatGPT 4.0)存在显著差异,且多重比较调整后仍存在差异(P<0.05);在AI模型之间,ChatGPT 3.5与ChatGPT 4.0或ChatGPT 4.0与带提示的ChatGPT 4.0之间无显著统计学差异(P>0.05) 尽管AI模型可快速回答问题,但需在清晰度、一致性、全面性、可用性和质量方面符合已制订的指南。该研究强调了在临床决策中依赖专家制订指南的重要性,并突出了AI模型潜在的改进领域 Barlas等[8] 2024 土耳其 ChatGPT 3.5 2型糖尿病合并肥胖 20 管理 AACE和ADA 在评估2型糖尿病肥胖时,ChatGPT 3.5与指南的兼容性为100%;然而,在治疗部分(包括营养、药物和手术减重方法),兼容性较低 与指南相比,ChatGPT 3.5的回答内容全面且易于理解,但不能替代以患者为中心的医疗专业人员 Sciberras等[9] 2024 马耳他 ChatGPT 3.5 炎症性肠病 38 治疗 ECCO 在准确性方面,大多数回复(84.2%)的中位得分≥4(四分位间距为2),平均得分为3.87±0.6;在完整性方面,34.2%的回复中位得分为3,55.3%的回复中位得分在2~3之间;总体而言,平均评分为2.24±0.4,中位数为2,四分位间距为1 AI可为患者提供有用的帮助,但对专业领域问题的回答可能偏离循证指南推荐意见,因此需提供更为透明的提问流程 Shrestha等[10] 2024 美国 ChatGPT 3.5 腰背痛 82 诊断和
治疗NASS 对于具有推荐意见的指南,ChatGPT 3.5的回复准确率为65%(修改提示语后为72%,P=0.41);对于数据不足或存在冲突的指南,准确率为46%(修改提示语后为58%,P=0.11);对于缺乏足够研究证据支持临床问题的指南,回复准确率为49%(修改提示语后为16%,P=0.003) ChatGPT能够生成充分的腰背痛指南推荐意见,且在初始回答时总体效果较好 Kusunose等[11] 2023 日本 ChatGPT 3.5 高血压 31 管理 JSH ChatGPT 3.5回答临床问题准确性的能力高于指南问题(80% 比36%,P=0.005) 与指南相比,ChatGPT 3.5有潜力成为临床医生管理高血压的重要工具 AACE(American Association of Clinical Endocrinology):美国临床内分泌医师协会;AAO-HNS(American Academy of Otolaryngology-Head and Neck Surgery):美国耳鼻喉头颈外科医学会;ADA(American Diabetes Association):美国糖尿病协会;AI(artificial intelligence):人工智能;AIOM(Italian Association of Medical Oncology):意大利肿瘤医学协会;ASPS(American Society of Plastic Surgeons):美国整形外科医师学会;CPG(clinical practice guideline):临床实践指南;EAU(European Association of Urology):欧洲泌尿外科协会;ECCO(European Crohn's and Colitis Organisation):欧洲克罗恩和结肠炎组织;JSH(Japanese Society of Hypertension):日本高血压协会;LLMs(large language models):大语言模型;NASS(North American Spine Society):北美脊柱外科协会 高质量的指南是指导临床医生从事医疗活动的重要依据[12]。然而,目前指南存在的问题包括:(1)制订周期较长。从临床问题的确定到证据检索,再到对证据的梳理总结,一般1部指南从开始制订至发表至少需经历1年以上时间[13]。(2)质量普遍较低。研究表明,指南的质量良莠不齐,低质量的指南比例相对较高,这些低质量指南的推荐意见可能误导临床实践,导致不良后果[14]。(3)知而不行[15]。指南制订完成后,在临床应用过程中存在诸多问题,如临床医生无法获取指南、对指南知晓率低、不完全遵循指南等,阻碍指南的传播与实施。既往研究汇总了AI加速指南制订的步骤,但多建立在理论层面[16]。随着越来越多GAI工具的研发,有望打破这一壁垒,推进指南的制订、评价和应用过程。然而,目前针对这一领域的研究和证据相对较少。
本文基于现有文献,阐述GAI工具在指南制订、评价及应用过程中的现状、作用和挑战,以期促进GAI工具更好地服务指南制订者和使用者,缩短指南制订周期,提升指南制订质量,并加速指南的转化和推广。
1. GAI工具在指南制订中的应用
指南的制订步骤一般包括:确定指南范围、注册、撰写计划书、组建专家组、管理利益冲突、确定临床问题、制作系统评价、证据质量分级、撰写决策表、专家共识、撰写指南全文及发表等[13]。在此过程中,系统评价和Meta分析的制作最耗时间,也是目前应用GAI工具探索加速其制作过程最常见的场景[17-33]。研究显示,GAI工具(如ChatGPT等)可应用于系统评价的检索策略制订、文献筛选、数据提取、偏倚风险评价等步骤(表 2),从而加速系统评价的制作过程,节约指南制订者的时间[17-33]。
表 2 GAI工具在系统评价中的作用Table 2. The role of GAI tools in systematic reviews文献 发表时间 国家/地区 GAI工具 系统评价制作步骤 确定临床问题 检索策略制订 文献检索 文献筛选 提取数据 偏倚风险评估 数据分析 Luo等[17] 2024 中国 ChatGPT 4.0和Claude 3 √ √ √ √ √ √ √ Oami等[18] 2024 日本 ChatGPT 4.0 - - - √ - - - Khraisha等[19] 2024 爱尔兰 ChatGPT 4.0 - - - √ √ - - Gwon等[20] 2024 韩国 ChatGPT 3.5和Bing AI - √ √ - - - - Hossain等[21] 2024 美国 ChatGPT √ - √ √ - - √ Issaiy等[22] 2024 伊朗 ChatGPT 3.5 - - - - - √ - Gartlehner等[23] 2024 美国 Claude 2 - - - - √ - - Kohandel等[24] 2024 伊朗 ChatGPT 3.5 - - - √ - - - Guo等[25] 2024 加拿大 ChatGPT 4.0 - - - √ - - - Giunti等[26] 2024 爱尔兰 ChatGPT 3.5 - - √ - - - - Dennstädt等[27] 2024 瑞士 FlanT5-XXL,OHNC*,Mixtral,Platypus 2 - - - √ - - - Tran等[28] 2024 法国 ChatGPT 3.5 - - - √ - - - Qureshi等[29] 2023 美国 ChatGPT 3.5和4.0 √ √ √ √ √ - √ Mahuli等[30] 2023 印度 ChatGPT - - - - √ √ - Nashwan等[31] 2023 卡塔尔 ChatGPT 4.0,SAM,LlaMA,LaMDA - - - - - √ - Alshami等[32] 2023 美国 ChatGPT 3.5 - - √ √ √ √ - Kataoka等[33] 2023 日本 ChatGPT 3.5和4.0 - - - √ - - - *OHNC:OpenHermes-2.5-neural-chat-7b-v3-1-7B;√:文中提及;-:文中未提及 除上述环节外,ChatGPT还有助于确定优先选题,甚至可得出比人工讨论更有价值的优先选题,可与人工讨论结果进行互补,提升选题的优先级。此方法也可应用于指南制订过程中“确定临床问题”这一步骤。研究显示,大语言模型工具Gemini可通过感情分析,预测专家对某些陈述或建议的态度,并将这些信息应用于实际决策过程中,最大限度减少专家之间的相互影响,促进专家在决策过程中更好地达成共识[34]。另外,在指南制订的决策过程中,有研究建议应用ChatGPT创建生物制剂临床治疗决策路径与算法,为特定疾病临床药物治疗方案的选择和制订提供新思路[35],但仍需专家组的验证和确认。同时,GAI工具也有助于凝练文献的重点内容,协助起草指南计划书,遴选专家组人员的资历,以及协助回顾文献以确定指南范围和制订的必要性[36-37],但这些内容尚停留在理论探讨层面,目前无相关研究证据支持。
2. GAI工具在指南评价中的应用
指南评价是了解指南科学性和透明性的重要手段,有助于识别指南质量,发现不足之处,为后续指南的修订或更新提供依据。目前常用的指南评价工具包括:2003年指南研究与评估系统(Appraisal of Guidelines for Research & Evaluation Instrument,AGREE)工作组研发的指南方法学质量评价工具AGREE,并于2009年更新为AGREE Ⅱ[38];2017年国际实践指南报告规范(Reporting Items for practice Guidelines in HealThcare,RIGHT)工作组研发的指南报告质量评价工具RIGHT[39],2022年指南科学性(Scientificity)、透明性(Transparency)和适用性(Applicability)评级(Rankings)工作组研发的STAR工具[40],以及其他指南评价工具(如指南临床适用性评价工具)等[41]。采用上述工具完成1部指南的方法学评价,所需时间约0.5~1.5 h[38],且存在一定程度的主观性。
GAI工具可帮助循证医学研究评价者节约大量时间,提高指南评价的准确性。有研究者基于ChatGPT研发了AGREE Ⅱ Analyzer[42]和CPG risk of bias (AGREE-Ⅱ)扩展小程序,用于自动化评价指南的方法学质量,但目前尚无公开发表的相关研究和数据。针对其他类型研究的自动化质量评价也有一定探索,如GAI工具在评估随机对照试验的方法学质量[43]和报告质量[44],以及系统评价的方法学质量和报告质量[45]方面均有相关研究发表,数据显示GAI工具的准确性较高且耗时较少,提示GAI工具在指南自动化评价方面也具有突出应用潜力。目前,STAR工作组正基于大语言模型开发一体化自动评级系统,拟整合ChatGPT、Kimi等多个GAI工具,提高指南自动化评价的效率和准确性[46]。
3. GAI工具在指南传播与实施中的应用
指南的传播与实施是连接指南制订工作与临床落地应用的桥梁。GAI工具在此过程中可协助优化、整合及可视化指南推荐意见,提升指南的可读性。张志玲等[47]基于12部指南,应用GAI工具编写了患者教育材料的18个问题及答案,并测试其可读性,结果发现句子数、词数、复杂语义句子数等维度评估达到中学生阅读水平,提示GAI工具可简化指南推荐意见的理解难度,提高指南的可读性,加速指南的传播与实施。
ChatGPT等GAI工具还可将指南推荐意见高效、精准地转化为可落地执行的临床路径[48-49]、知识图谱或决策树模型,以更好地整合入常规医疗实践。Miao等[50]应用ChatGPT 4.0和Claude 2对肿瘤指南中的分子生物标志物进行提取并生成临床决策树,结果显示GAI工具在总结肿瘤学分子诊断指南方面具有一定潜力,但未来研究应关注如何提升这些模型的能力,以实现更精准的临床决策。Hamed等[49]基于3部糖尿病酮症酸中毒指南,应用ChatGPT改编并生成新指南,结果生成了1个详细的对比表格,覆盖了指南的大部分信息;但生成内容中存在一些失误,如错误地报告了诊断标准、遗漏了风险因素,使得生成的结果不可靠。这些错误的出现可能源于ChatGPT对原指南的误解、信息提取不完整以及原指南本身存在歧义和训练数据的局限性所致,提示有必要进一步研发适用于指南传播与实施的大模型。Wang等[51]将COVID-19指南转化为一个基于Python编码的图谱提示,应用NetworkX库构建了指南,作为有向知识图,“节点”代表医疗检查点或最终治疗方案,“边”代表这些节点之间可能转换的工具ChatGPT-CARE。
4. GAI工具在指南领域应用的优势与挑战
在指南领域,GAI工具存在多方面优势,如可加速部分指南的制订步骤,提高指南的制订效率,提供较为客观的指南评价结果,促进指南的高效转化等。但由于此类工具在指南中的应用尚处于探索阶段,目前存在诸多挑战。首先,训练GAI工具的数据质量和可靠性不透明,因此在当前阶段基于GAI工具开展指南制订、传播与实施等探索时,建议进行充分的人工确认,以保证其公正性和科学性;此外,鉴于GAI工具在开展相同任务或回答相同问题时,不同工具、不同时间返回的结果可能不完全相同,因此验证生成结果的可靠性以及透明呈现这一过程也非常重要。其次,应用GAI工具开展指南相关探索时,需充分考虑数据隐私保护及可能涉及的伦理问题,如利益冲突、伦理要求和自动化决策的公平性等。如何确保GAI工具在指南领域的探索过程不偏袒某些利益群体或无意中加剧医疗不平等,是值得深入探讨的问题。最后,GAI工具的有效运行需强大的计算机资源和技术支持,故应充分评估支持GAI工具应用的技术基础设施,特别是在一些资源有限的医疗机构中。
5. 对未来研究的建议
考虑到GAI工具在指南领域的应用尚处于起始阶段,因此,未来需开展更多探索性研究,以论证每个环节或步骤的可行性;同时,探索指南制订的新模式,如基于GAI工具直接生成可信的证据总结表,进行利益冲突探测,将指南推荐意见可视化,形成基于GAI工具的指南制订、评价和实施一体化AI系统或工具等,均是未来值得探索的方向。在此过程中,保证指南质量是前提,提高指南制订效率和可信度是目的。此外,未来还需研究轻量化和云端保密的大模型,以保障数据安全和隐私保护。轻量化模型可减少计算和存储需求,提升部署灵活性,特别是在基层医疗机构和偏远地区;而云端保密技术,如联邦学习和差分隐私,能够在保障数据安全的同时利用云端资源,提高数据处理的效率。这些技术创新将使指南的制订和应用更高效、更安全,最终提升医疗服务质量和患者健康水平。
6. 小结与展望
本文通过对现有相关文献的系统回顾,总结了GAI工具在医学指南领域应用的潜力和作用。GAI工具不仅能够加速文献筛选、评价和提取等过程,从而加速指南的制订流程,还可在推荐意见的形成过程中提供智能辅助,提升指南质量和一致性。此外,在指南的评价和应用阶段,GAI工具也展示出了其在优化指南评价、提高指南可读性、促进指南传播与推广方面的重要作用。然而,尽管GAI工具显示出巨大潜力,其在医疗实践中的广泛应用仍面临诸多挑战,尤其在可靠性、透明性以及对复杂临床场景的适应性等方面的评估亟待进一步深入。当前研究尚未探讨如何确保GAI工具在不同医学专科中的普适性,以及如何在保障指南严谨性和临床可操作性的前提下,最大化其智能辅助能力。因此,未来研究应重点围绕这些挑战展开,尤其在确保指南制订过程中各步骤的科学性和公正性方面。此外,有必要研发相应的应用程序或系统,进一步探讨如何在指南中更好地应用GAI工具,以确保其能够灵活适应不同的临床场景,为医疗决策提供可靠支持。
作者贡献:罗旭飞、陈耀龙负责论文设计和构思;罗旭飞负责论文初稿撰写;吕晗、宋再伟、刘辉、王郅翔、李昊东、王晔、朱迪参与论文修订;陈耀龙、张璐负责论文写作指导和审校。利益冲突:所有作者均声明不存在利益冲突 -
表 1 应用GAI工具咨询医学特定领域知识与指南推荐意见对比的研究
Table 1 Research on the application of GAI tools to consult medical domain-specific knowledge and compare guideline recommendations
文献 发表年份 国家 GAI工具 疾病/领域 问题数量 侧重点 指南来源 主要研究结果 主要研究结论 Ho等[2] 2024 美国 ChatGPT 3.5和ChatGPT 4.0 梅尼埃病 16 常见
问题AAO-HNS ChatGPT 3.5对5个问题的回答表现全面,而ChatGPT 4.0对9个问题的回答表现全面(31.3%比56.3%,P=0.2852);ChatGPT 3.5与ChatGPT 4.0对所有问题的回答均较为详尽(P=1.0000);其中ChatGPT 3.5在5个问题的回答中存在误导性,而ChatGPT 4.0在3个问题的回答中存在误导性(31.3% 比18.75%,P=0.6851) ChatGPT 4.0在数据来源质量方面显著优于ChatGPT 3.5;但与指南相比,两个模型在综合性、可读性和减少误导性方面均存在可改进的空间 Hoang等[3] 2024 美国 ChatGPT 3.5和ChatGPT 4.0 神经根型颈椎病 14 诊断和
治疗NASS ChatGPT 4.0的平均完整性为46%,而ChatGPT 3.5为34%,前者较后者高12%;ChatGPT 4.0的输出平均Flesch可读性得分为15.24,难以阅读,需具备大学毕业水平才能理解,而ChatGPT 3.5的可读性得分更低(8.73),更加难读,需具备专业教育水平才能理解 与指南相比,ChatGPT模型可对NASS关于神经根型颈椎病的指南问题提供安全、准确的回答,但回答内容并不完整 Gomez-Cabello等[4] 2024 美国 ChatGPT 3.5、ChatGPT 4.0及Gemini 整形外科术后护理 32 常见
问题ASPS CPG ChatGPT 3.5的likert量表平均得分最高(4.18±0.93)(P=0.849),而Gemini的回答可读性(P=0.001)和可理解性(P=0.014)方面更好;两模型回答的可操作性方面无统计学差异(P=0.830) 与指南相比,虽然LLMs在术后患者护理方面问题的回答显示出作为辅助工具的潜力,但仍需进一步优化和调整 Shiraishi等[5] 2024 日本 ChatGPT 3.5 眼睑下垂 11 管理 ASPS CPG 最终分析共包含11个问题,ChatGPT 3.5正确回答了其中的61.3%;在回答临床问题时,ChatGPT 3.5的英文回答准确率显著高于日文(76.4%比46.4%,P=0.004),且字数更多(123比35.9,P=0.004);在证据质量、推荐强度和参考文献匹配度方面无统计学差异;ChatGPT 3.5提出了697篇参考文献,但其中仅216篇(31.0%)文献是真实存在的 与指南相比,ChatGPT 3.5在回答眼睑下垂管理问题时展示了作为辅助工具的潜力;然而,现有AI模型存在明显的局限性,仅可作为辅助工具补充医学专业人员相关知识 Altintaş等[6] 2024 土耳其 ChatGPT 4.0,Perplexity,Bing及Bard AI 尿路结石 115 诊断、
治疗和
预后EAU Perplexity和ChatGPT 4.0的平均得分分别为4.68(标准差:0.80)和4.80(标准差:0.47),二者的得分与Bing和Bard的得分存在显著差异(Bing比Perplexity,P<0.001;Bard比Perplexity,P<0.001;Bing比ChatGPT,P<0.001;Bard比ChatGPT,P<0.001)。Bing的平均得分为4.21(标准差:0.96),而Bard的平均得分为3.56(标准差:1.14),二者之间也存在显著差异(Bing比Bard,P<0.001) ChatGPT 4.0和Perple-xity生成的回答与EAU指南的推荐意见相一致;这些LLMs未来在向医生提供咨询方面可能发挥重要作用,特别是在尿路结石领域 Piazza等[7] 2024 意大利 ChatGPT 3.5和4.0 卵巢癌 8 治疗 AIOM AIOM指南与AI模型(ChatGPT 3.5、ChatGPT 4.0及带提示的ChatGPT 4.0)存在显著差异,且多重比较调整后仍存在差异(P<0.05);在AI模型之间,ChatGPT 3.5与ChatGPT 4.0或ChatGPT 4.0与带提示的ChatGPT 4.0之间无显著统计学差异(P>0.05) 尽管AI模型可快速回答问题,但需在清晰度、一致性、全面性、可用性和质量方面符合已制订的指南。该研究强调了在临床决策中依赖专家制订指南的重要性,并突出了AI模型潜在的改进领域 Barlas等[8] 2024 土耳其 ChatGPT 3.5 2型糖尿病合并肥胖 20 管理 AACE和ADA 在评估2型糖尿病肥胖时,ChatGPT 3.5与指南的兼容性为100%;然而,在治疗部分(包括营养、药物和手术减重方法),兼容性较低 与指南相比,ChatGPT 3.5的回答内容全面且易于理解,但不能替代以患者为中心的医疗专业人员 Sciberras等[9] 2024 马耳他 ChatGPT 3.5 炎症性肠病 38 治疗 ECCO 在准确性方面,大多数回复(84.2%)的中位得分≥4(四分位间距为2),平均得分为3.87±0.6;在完整性方面,34.2%的回复中位得分为3,55.3%的回复中位得分在2~3之间;总体而言,平均评分为2.24±0.4,中位数为2,四分位间距为1 AI可为患者提供有用的帮助,但对专业领域问题的回答可能偏离循证指南推荐意见,因此需提供更为透明的提问流程 Shrestha等[10] 2024 美国 ChatGPT 3.5 腰背痛 82 诊断和
治疗NASS 对于具有推荐意见的指南,ChatGPT 3.5的回复准确率为65%(修改提示语后为72%,P=0.41);对于数据不足或存在冲突的指南,准确率为46%(修改提示语后为58%,P=0.11);对于缺乏足够研究证据支持临床问题的指南,回复准确率为49%(修改提示语后为16%,P=0.003) ChatGPT能够生成充分的腰背痛指南推荐意见,且在初始回答时总体效果较好 Kusunose等[11] 2023 日本 ChatGPT 3.5 高血压 31 管理 JSH ChatGPT 3.5回答临床问题准确性的能力高于指南问题(80% 比36%,P=0.005) 与指南相比,ChatGPT 3.5有潜力成为临床医生管理高血压的重要工具 AACE(American Association of Clinical Endocrinology):美国临床内分泌医师协会;AAO-HNS(American Academy of Otolaryngology-Head and Neck Surgery):美国耳鼻喉头颈外科医学会;ADA(American Diabetes Association):美国糖尿病协会;AI(artificial intelligence):人工智能;AIOM(Italian Association of Medical Oncology):意大利肿瘤医学协会;ASPS(American Society of Plastic Surgeons):美国整形外科医师学会;CPG(clinical practice guideline):临床实践指南;EAU(European Association of Urology):欧洲泌尿外科协会;ECCO(European Crohn's and Colitis Organisation):欧洲克罗恩和结肠炎组织;JSH(Japanese Society of Hypertension):日本高血压协会;LLMs(large language models):大语言模型;NASS(North American Spine Society):北美脊柱外科协会 表 2 GAI工具在系统评价中的作用
Table 2 The role of GAI tools in systematic reviews
文献 发表时间 国家/地区 GAI工具 系统评价制作步骤 确定临床问题 检索策略制订 文献检索 文献筛选 提取数据 偏倚风险评估 数据分析 Luo等[17] 2024 中国 ChatGPT 4.0和Claude 3 √ √ √ √ √ √ √ Oami等[18] 2024 日本 ChatGPT 4.0 - - - √ - - - Khraisha等[19] 2024 爱尔兰 ChatGPT 4.0 - - - √ √ - - Gwon等[20] 2024 韩国 ChatGPT 3.5和Bing AI - √ √ - - - - Hossain等[21] 2024 美国 ChatGPT √ - √ √ - - √ Issaiy等[22] 2024 伊朗 ChatGPT 3.5 - - - - - √ - Gartlehner等[23] 2024 美国 Claude 2 - - - - √ - - Kohandel等[24] 2024 伊朗 ChatGPT 3.5 - - - √ - - - Guo等[25] 2024 加拿大 ChatGPT 4.0 - - - √ - - - Giunti等[26] 2024 爱尔兰 ChatGPT 3.5 - - √ - - - - Dennstädt等[27] 2024 瑞士 FlanT5-XXL,OHNC*,Mixtral,Platypus 2 - - - √ - - - Tran等[28] 2024 法国 ChatGPT 3.5 - - - √ - - - Qureshi等[29] 2023 美国 ChatGPT 3.5和4.0 √ √ √ √ √ - √ Mahuli等[30] 2023 印度 ChatGPT - - - - √ √ - Nashwan等[31] 2023 卡塔尔 ChatGPT 4.0,SAM,LlaMA,LaMDA - - - - - √ - Alshami等[32] 2023 美国 ChatGPT 3.5 - - √ √ √ √ - Kataoka等[33] 2023 日本 ChatGPT 3.5和4.0 - - - √ - - - *OHNC:OpenHermes-2.5-neural-chat-7b-v3-1-7B;√:文中提及;-:文中未提及 -
[1] Feuerriegel S, Hartmann J, Janiesch C, et al. Generative AI[J]. Bus Inf Syst Eng, 2024, 66(1): 111-126. DOI: 10.1007/s12599-023-00834-7
[2] Ho R A, Shaari A L, Cowan P T, et al. ChatGPT responses to frequently asked questions on Ménière's disease: a comparison to clinical practice guideline answers[J]. OTO Open, 2024, 8(3): e163. DOI: 10.1002/oto2.163
[3] Hoang T, Liou L, Rosenberg A M, et al. An analysis of ChatGPT recommendations for the diagnosis and treatment of cervical radiculopathy[J]. J Neurosurg Spine, 2024, 41(3): 385-395.
[4] Gomez-Cabello C A, Borna S, Pressman S M, et al. Artificial intelligence in postoperative care: assessing large language models for patient recommendations in plastic surgery[J]. Healthcare (Basel), 2024, 12(11): 1083.
[5] Shiraishi M, Tomioka Y, Miyakuni A, et al. Performance of ChatGPT in answering clinical questions on the practical guideline of blepharoptosis[J]. Aesthetic Plast Surg, 2024, 48(13): 2389-2398. DOI: 10.1007/s00266-024-04005-1
[6] Altintaş E, Ozkent M S, Gül M, et al. Comparative analysis of artificial intelligence chatbot recommendations for urolithiasis management: a study of EAU guideline compliance[J]. Fr J Urol, 2024, 34(7/8): 102666.
[7] Piazza D, Martorana F, Curaba A, et al. The consistency and quality of ChatGPT responses compared to clinical guidelines for ovarian cancer: a Delphi approach[J]. Curr Oncol, 2024, 31(5): 2796-2804. DOI: 10.3390/curroncol31050212
[8] Barlas T, Altinova A E, Akturk M, et al. Credibility of ChatGPT in the assessment of obesity in type 2 diabetes according to the guidelines[J]. Int J Obes (Lond), 2024, 48(2): 271-275. DOI: 10.1038/s41366-023-01410-5
[9] Sciberras M, Farrugia Y, Gordon H, et al. Accuracy of information given by ChatGPT for patients with inflammatory bowel disease in relation to ECCO guidelines[J]. J Crohns Colitis, 2024, 18(8): 1215-1221. DOI: 10.1093/ecco-jcc/jjae040
[10] Shrestha N, Shen Z K, Zaidat B, et al. Performance of ChatGPT on NASS clinical guidelines for the diagnosis and treatment of low back pain: a comparison study[J]. Spine (Phila Pa 1976), 2024, 49(9): 640-651. DOI: 10.1097/BRS.0000000000004915
[11] Kusunose K, Kashima S, Sata M. Evaluation of the accuracy of ChatGPT in answering clinical questions on the Japanese society of hypertension guidelines[J]. Circ J, 2023, 87(7): 1030-1033. DOI: 10.1253/circj.CJ-23-0308
[12] Institute of Medicine. Clinical practice guidelines we can trust[M]. Washington, D.C. : The National Academies Press, 2011.
[13] World Health Organization. WHO handbook for guideline development[M]. 2nd ed. Geneva: World Health Organization, 2014.
[14] 中华医学会杂志社指南与标准研究中心, 中国医学科学院循证评价与指南研究创新单元(2021RU017), 世界卫生组织指南实施与知识转化合作中心, 等. 2022年医学期刊发表中国指南和共识的科学性、透明性和适用性的评级[J]. 中华医学杂志, 2023, 103(37): 2912-2920. DOI: 10.3760/cma.j.cn112137-20230724-00076 Guidelines and Standards Research Center Chinese Medical Association Publishing House, Research Unit of Evidence-Based Evaluation and Guidelines (2021RU017), Chinese Academy of Medical Sciences, WHO Collaborating Centre for Guideline Implementation and Knowledge Translation, et al. Evaluation and ranking for scientific, transparent and applicable of Chinese guidelines and consensus published in the medical journals in 2022[J]. Natl Med J China, 2023, 103(37): 2912-2920. DOI: 10.3760/cma.j.cn112137-20230724-00076
[15] 吕萌, 罗旭飞, 刘云兰, 等. 2019年期刊公开发表的中国临床实践指南文献调查与评价: 传播与实施情况[J]. 协和医学杂志, 2022, 13(4): 673-678. DOI: 10.12290/xhyxzz.2022-0028 Lyu M, Luo X F, Liu Y L, et al. Investigation and evaluation of Chinese clinical practice guidelines published in medical journals in 2019: analysis on dissemination and implementation[J]. Med J PUMCH, 2022, 13(4): 673-678. DOI: 10.12290/xhyxzz.2022-0028
[16] 陈耀龙, 罗旭飞, 史乾灵, 等. 人工智能如何改变指南的未来[J]. 协和医学杂志, 2021, 12(1): 114-121. DOI: 10.12290/xhyxzz.2021-0012 Chen Y L, Luo X F, Shi Q L, et al. How will artificial intelligence lead the future of clinical practice guidelines[J]. Med J PUMCH, 2021, 12(1): 114-121. DOI: 10.12290/xhyxzz.2021-0012
[17] Luo X F, Chen F X, Zhu D, et al. Potential roles of large language models in the production of systematic reviews and meta-analyses[J]. J Med Internet Res, 2024, 26: e56780. DOI: 10.2196/56780
[18] Oami T, Okada Y, Nakada T A. Performance of a large language model in screening citations[J]. JAMA Netw Open, 2024, 7(7): e2420496. DOI: 10.1001/jamanetworkopen.2024.20496
[19] Khraisha Q, Put S, Kappenberg J, et al. Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages[J]. Res Synth Methods, 2024, 15(4): 616-626. DOI: 10.1002/jrsm.1715
[20] Gwon Y N, Kim J H, Chung H S, et al. The use of generative AI for scientific literature searches for systematic reviews: ChatGPT and Microsoft Bing AI performance evaluation[J]. JMIR Med Inform, 2024, 12: e51187. DOI: 10.2196/51187
[21] Hossain M M. Using ChatGPT and other forms of generative AI in systematic reviews: Challenges and opportunities[J]. J Med Imaging Radiat Sci, 2024, 55(1): 11-12. DOI: 10.1016/j.jmir.2023.11.005
[22] Issaiy M, Ghanaati H, Kolahi S, et al. Methodological insights into ChatGPT's screening performance in systematic reviews[J]. BMC Med Res Methodol, 2024, 24(1): 78. DOI: 10.1186/s12874-024-02203-8
[23] Gartlehner G, Kahwati L, Hilscher R, et al. Data extraction for evidence synthesis using a large language model: a proof-of-concept study[J]. Res Synth Methods, 2024, 15(4): 576-589. DOI: 10.1002/jrsm.1710
[24] Kohandel Gargari O, Mahmoudi M H, Hajisafarali M, et al. Enhancing title and abstract screening for systematic reviews with GPT-3.5 turbo[J]. BMJ Evid Based Med, 2024, 29(1): 69-70. DOI: 10.1136/bmjebm-2023-112678
[25] Guo E, Gupta M, Deng J W, et al. Automated paper screening for clinical reviews using large language models: data analysis study[J]. J Med Internet Res, 2024, 26: e48996. DOI: 10.2196/48996
[26] Giunti G, Doherty C P. Cocreating an automated mHealth apps systematic review process with generative AI: design science research approach[J]. JMIR Med Educ, 2024, 10: e48949. DOI: 10.2196/48949
[27] Dennstädt F, Zink J, Putora P M, et al. Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain[J]. Syst Rev, 2024, 13(1): 158. DOI: 10.1186/s13643-024-02575-4
[28] Tran V T, Gartlehner G, Yaacoub S, et al. Sensitivity and specificity of using GPT-3.5 turbo models for title and abstract screening in systematic reviews and meta-analyses[J]. Ann Intern Med, 2024, 177(6): 791-799.
[29] Qureshi R, Shaughnessy D, Gill K A R, et al. Are ChatGPT and large language models "the answer" to bringing us closer to systematic review automation? [J]. Syst Rev, 2023, 12(1): 72. DOI: 10.1186/s13643-023-02243-z
[30] Mahuli S A, Rai A, Mahuli A V, et al. Application ChatGPT in conducting systematic reviews and meta-analyses[J]. Br Dent J, 2023, 235(2): 90-92. DOI: 10.1038/s41415-023-6132-y
[31] Nashwan A J, Jaradat J H. Streamlining systematic reviews: harnessing large language models for quality assessment and risk-of-bias evaluation[J]. Cureus, 2023, 15(8): e43023.
[32] Alshami A, Elsayed M, Ali E, et al. Harnessing the power of ChatGPT for automating systematic review process: methodology, case study, limitations, and future directions[J]. Systems, 2023, 11(7): 351. DOI: 10.3390/systems11070351
[33] Kataoka Y, So R, Banno M, et al. Development of meta-prompts for Large Language Models to screen titles and abstracts for diagnostic test accuracy reviews[DB/OL]. (2023-11-01)[2024-07-19]. https://doi.org/10.1101/2023.10.31.23297818.
[34] Trillo J R, Cabrerizo F J, Pérez I J, et al. A new consensus reaching method for group decision-making based on the large language model Gemini for detecting hostility during the discussion process[C]//2024 IEEE International Conference on Evolving and Adaptive Intelligent Systems (EAIS). Piscataway, NJ: IEEE Press, 2024: 1-8.
[35] Maniaci A, Saibene A M, Calvo-Henriquez C, et al. Is generative pre-trained transformer artificial intelligence (Chat-GPT) a reliable tool for guidelines synthesis? A preliminary evaluation for biologic CRSwNP therapy[J]. Eur Arch Otorhinolaryngol, 2024, 281(4): 2167-2173. DOI: 10.1007/s00405-024-08464-9
[36] Mugaanyi J, Cai L Y, Cheng S M, et al. Evaluation of large language model performance and reliability for citations and references in scholarly writing: cross-disciplinary study[J]. J Med Internet Res, 2024, 26: e52935. DOI: 10.2196/52935
[37] Teperikidis E, Boulmpou A, Papadopoulos C. Prompting ChatGPT to perform an umbrella review[J]. Acta Cardiol, 2024, 79(3): 403-404. DOI: 10.1080/00015385.2023.2240120
[38] Brouwers M C, Kho M E, Browman G P, et al. AGREE Ⅱ: advancing guideline development, reporting and evaluation in health care[J]. CMAJ, 2010, 182(18): E839-E842. DOI: 10.1503/cmaj.090449
[39] Chen Y L, Yang K H, Marušic A, et al. A reporting tool for practice guidelines in health care: the RIGHT statement[J]. Ann Intern Med, 2017, 166(2): 128-132. DOI: 10.7326/M16-1565
[40] 杨楠, 赵巍, 潘旸, 等. 针对临床实践指南科学性、透明性和适用性的评级工具研发[J]. 中华医学杂志, 2022, 102(30): 2329-2337. DOI: 10.3760/cma.j.cn112137-20220219-00340 Yang N, Zhao W, Pan Y, et al. Development of a rating tool for the scientificity, transparency and applicability of clinical practice guidelines[J]. Natl Med J China, 2022, 102(30): 2329-2337. DOI: 10.3760/cma.j.cn112137-20220219-00340
[41] 李思雨, 刁莎, 石雨晴, 等. 指南临床适用性评价工具(2.0版)[J]. 中国循证医学杂志, 2023, 23(5): 597-601. Li S Y, Diao S, Shi Y Q, et al. Establishment of the instrument for evaluating clinical applicability of guidelines (version 2.0)[J]. Chin J Evid-Based Med, 2023, 23(5): 597-601.
[42] YesChat AI. AGREE Ⅱ analyzer-AI-powered analysis[EB/OL]. [2024-07-19]. https://www.yeschat.ai/gpts-9t557aqyOyl-AGREE-Ⅱ-Analyzer.
[43] Lai H H, Ge L, Sun M Y, et al. Assessing the risk of bias in randomized clinical trials with large language models[J]. JAMA Netw Open, 2024, 7(5): e2412687. DOI: 10.1001/jamanetworkopen.2024.12687
[44] Roberts R H, Ali S R, Hutchings H A, et al. Comparative study of ChatGPT and human evaluators on the assessment of medical literature according to recognised reporting standards[J]. BMJ Health Care Inform, 2023, 30(1): e100830. DOI: 10.1136/bmjhci-2023-100830
[45] Woelfle T, Hirt J, Janiaud P, et al. Benchmarking human-AI collaboration for common evidence appraisal tools[DB/OL ]. (2024-04-22)[2024-07-19]. https://doi.org/10.1101/2024.04.21.24306137.
[46] 刘辉, 杨楠, 史乾灵, 等. 医学期刊发表中国指南和共识类文献科学性、透明性和适用性评级方法学: 样本确定及专科分配[J]. 协和医学杂志, 2024, 15(2): 429-434. DOI: 10.12290/xhyxzz.2024-0112 Liu H, Yang N, Shi Q L, et al. Methodology of scientific, transparent and applicable rankings for Chinese guidelines and consensus related literature published in the medical journals: sample identification and speciality assignment[J]. Med J PUMCH, 2024, 15(2): 429-434. DOI: 10.12290/xhyxzz.2024-0112
[47] 张志玲, 周鹏翔, 何娜, 等. 基于临床实践指南, 应用生成式人工智能模型编写纤维肌痛患者教育材料[J]. 临床药物治疗杂志, 2024, 22(5): 7-11. DOI: 10.3969/j.issn.1672-3384.2024.05.002 Zhang Z L, Zhou P X, He N, et al. Applying generative artificial intelligence models based on clinical practice guidelines to develop educational materials for fibromyalgia patients[J]. Clin Med J, 2024, 22(5): 7-11. DOI: 10.3969/j.issn.1672-3384.2024.05.002
[48] Kresevic S, Giuffrè M, Ajcevic M, et al. Optimization of hepatological clinical guidelines interpretation by large language models: a retrieval augmented generation-based framework[J]. NPJ Digit Med, 2024, 7(1): 102. DOI: 10.1038/s41746-024-01091-y
[49] Hamed E, Eid A, Alberry M. Exploring ChatGPT's potential in facilitating adaptation of clinical guidelines: a case study of diabetic ketoacidosis guidelines[J]. Cureus, 2023, 15(5): e38784.
[50] Miao B Y, Almaraz E R, Ganjouei A A, et al. Generation of guideline-based clinical decision trees in oncology using large language models[DB/OL ]. (2024-03-06)[2024-07-19]. https://doi.org/10.1101/2024.03.04.24303737.
[51] Wang Y S, Visweswaran S, Kapoor S, et al. ChatGPT-CARE: a superior decision support tool enhancing ChatGPT with clinical practice guidelines[DB/OL]. (2024-03-06) [2024-07-19]. https://doi.org/10.1101/2023.08.09.23293890.
-
期刊类型引用(2)
1. 吴腾. 生成式人工智能技术赋能智慧医疗建设的风险与规制. 医学与社会. 2025(03): 9-16 . 百度学术
2. 刘辉,史乾灵,罗旭飞,王子君,秦艺珊,王冰怡,玉炫,陈耀龙. 第二届全球证据峰会纪实:共襄循证科学新纪元. 广西医科大学学报. 2024(11): 1524-1529 . 百度学术
其他类型引用(0)
计量
- 文章访问数: 302
- HTML全文浏览量: 54
- PDF下载量: 73
- 被引次数: 2