Rajpurkar说,在基于对话的基准测试中的表现比基于书面病例总结进行诊断时差得多,GPT-3.5模型通常次之,特别是难以进行开放式诊断推理,。
美国OpenAI公司的GPT-4模型在与正在测试的临床AI的对话中扮演了患者AI的角色,这些患者基于2000个医疗案例。
它涉及管理多名患者、与医疗团队协调、进行身体检查,而当没有多项选择选项时,GPT-4还通过将临床AI的诊断与每个病例的正确答案进行比较。
比如GPT-4模型仅在71%的模拟患者对话中做到了这一点,1月2日,它们也并不总是能作出正确的诊断,但在动态对话中, 先进的人工智能模型居然不会“问诊” 一项新研究发现。
新的评估基准被称为CRAFT-MD,Llama-2-7b模型通常得分最低,当它不得不通过模拟的患者对话进行诊断时,并查看临床AI是否成功收集了相关的医疗信息,但不一定能取代经验丰富的医生的整体判断, 同样来自哈佛大学的Shreya Johri说:模拟患者互动可以评估病史采集技能,人类医学专家仔细检查了这些评估。
也并不一定意味着它优于人类医生, CRAFT-MD基准本身依赖于AI,现实世界中的医疗实践比模拟中的更混乱, 在这项研究中,以及了解当地医疗情况中复杂的社会和系统因素, 当研究人员开发出一种基于模拟医患对话评估临床AI模型推理能力的方法时,4种领先的大型语言模型OpenAI的GPT-3.5和GPT-4模型、美国Meta公司的Llama-2-7b模型和法国Mistral AI公司的Mistral-v2-7b模型。
帮助对结果进行评分。
以检查患者AI的准确性,也反映了现实生活中的情况,GPT-4模型的表现在测试中是最好的,这种模拟患者对话的方式代表了一种比医学检查更有用的评估AI临床推理能力的方法,然而, 例如, Rajpurkar说,但在 医生最重要的任务之一 与患者交谈以收集相关医疗信息并提供准确诊断方面,imToken官网,imToken官网,3家公司没有回应置评请求, 多项实验表明。
(来源:中国科学报 文乐乐) ,能够根据模拟的患者对话持续作出准确诊断,这一点变得很明显,仍然表现不佳,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,即使AI模型确实收集了患者的相关病史,他指出, AI模型在很大程度上也未能收集完整的病史,GPT-4模型的诊断准确性达到了令人印象深刻的82%,主要来自美国医学 委员 会的专业考试,她表示,他们还审查了对话, 图片来源:Just_Super/Getty Images ? 美国哈佛大学的Pranav Rajpurkar说:虽然大型语言模型在多项选择测试中的表现令人印象深刻,Mistral-v2-7b模型排在第二位或第三位, 美国斯克利普斯研究转化研究所的Eric Topol表示,只有在特定问题提示时才会披露重要信息,它们的准确性明显下降。
即使一个AI模型最终通过了这一基准,即患者可能不知道哪些细节是至关重要的,当提供结构化的病例摘要并允许从多项选择答案列表中选择诊断时,AI可能是支持临床工作的强大工具,准确率降至26%,其诊断准确率降至49%以下,这是临床实践的一个关键组成部分,相关研究成果发表于《自然-医学》。