医疗诊断准确率达到 91.1%，Med-Gemini 击败 GPT-4

2024-05-07科技

谷歌分享说，Med-Gemini 是一种专门从事医学的先进 AI 模型，与 OpenAI 的 GPT-4 相比，它更准确、更可靠，并且可以为复杂的临床任务产生细致入微的结果。

谷歌的人工智能研究实验室DeepMind和谷歌研究院最近发布了一篇关于他们即将推出的用于医疗保健领域的人工智能工具的论文。

据谷歌研究人员称，Med-Gemini仍处于研究阶段，已经配备了最新的技术，甚至可以超越流行的行业标准。

Med-Gemini 配备大型多式联运模型（LMM），它们都是为不同的目的和应用而设计的。

谷歌的双子座模型默认配备了先进的技术。他们可以处理来自文本、图像、视频和音频的信息。这使得 Med-Gemini 的效率要高得多，因为它对所有这些专业进行了微调。

其中一些包括：

网络搜索能力和自我训练能力

Med-Gemini 能够访问基于 Web 的搜索，这将有助于增强高级临床推理。Med-Gemini 已在 14 项医学基准上进行了测试，并在 10 项上建立了新的最先进（SOTA）性能。它的性能在可以进行比较的各个方面都超过了 GPT 模型系列。

根据New Atlas的数据，在MedQA（USMLE）基准测试中，Med-Gemini使用其不确定性引导的搜索策略实现了91.1%的准确率，比谷歌之前的医学LLM，Med-PaLM 2高出4.5% .

轻松分析冗长的电子健康记录

电子健康记录（EHR）通常很长，并且在文本上包含一些相似之处。Med-Gemini 可以帮助从冗长的文档中挑选相关信息。研究人员想要阐述Med-Gemini的这种能力，并运行了所谓的「大海捞针」任务。

他们使用了一个庞大的公开数据库，即重症监护医疗信息市场或MMIC-III，该数据库由重症监护患者的去识别化健康数据组成。这项任务背后的主要目的是在 EHR 中的大量数据中挑选出对罕见和微妙的医疗状况、症状或程序的相关提及。

Med-Gemini在测试中表现相当不错。它必须仔细地从健康记录中挑选出所有提及特定医疗问题的内容。除此之外，它还必须评估这些提及的相关性，对它们进行分类，并揭示特定患者是否有该问题的历史，并展示其推理。

研究人员说：「也许Med-Gemini最值得注意的方面是长上下文处理能力，因为它们为医疗AI系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。

未来

在以 Med-Gemini 为中心的所有积极因素中，未来会是什么样子？用研究人员的话来说，还有很多工作要做。然而，Med-Gemini无疑为自己展示了一个充满希望的未来。

除此之外，谷歌计划在整个开发过程中遵守公平和隐私。引用研究人员的话，「隐私考虑尤其需要植根于管理和保护患者信息的现有医疗保健政策和法规。

「公平性是另一个可能需要关注的领域，因为医疗保健中的人工智能系统可能会无意中反映或放大历史偏见和不平等，可能导致不同的模型性能和对边缘化群体的有害结果，」他们补充说。