醫療診斷準確率達到 91.1%，Med-Gemini 擊敗 GPT-4

2024-05-07科技

谷歌分享說，Med-Gemini 是一種專門從事醫學的先進 AI 模型，與 OpenAI 的 GPT-4 相比，它更準確、更可靠，並且可以為復雜的臨床任務產生細致入微的結果。

谷歌的人工智能研究實驗室DeepMind和谷歌研究院最近釋出了一篇關於他們即將推出的用於醫療保健領域的人工智能工具的論文。

據谷歌研究人員稱，Med-Gemini仍處於研究階段，已經配備了最新的技術，甚至可以超越流行的行業標準。

Med-Gemini 配備大型多式聯運模型（LMM），它們都是為不同的目的和套用而設計的。

谷歌的雙子座模型預設配備了先進的技術。他們可以處理來自文本、影像、影片和音訊的資訊。這使得 Med-Gemini 的效率要高得多，因為它對所有這些專業進行了微調。

其中一些包括：

網絡搜尋能力和自我訓練能力

Med-Gemini 能夠存取基於 Web 的搜尋，這將有助於增強高級臨床推理。Med-Gemini 已在 14 項醫學基準上進行了測試，並在 10 項上建立了新的最先進（SOTA）效能。它的效能在可以進行比較的各個方面都超過了 GPT 模型系列。

根據New Atlas的數據，在MedQA（USMLE）基準測試中，Med-Gemini使用其不確定性引導的搜尋策略實作了91.1%的準確率，比谷歌之前的醫學LLM，Med-PaLM 2高出4.5% .

輕松分析冗長的電子健康記錄

電子健康記錄（EHR）通常很長，並且在文本上包含一些相似之處。Med-Gemini 可以幫助從冗長的文件中挑選相關資訊。研究人員想要闡述Med-Gemini的這種能力，並執行了所謂的「大海撈針」任務。

他們使用了一個龐大的公開數據庫，即重癥監護醫療資訊市場或MMIC-III，該數據庫由重癥監護患者的去辨識化健康數據組成。這項任務背後的主要目的是在 EHR 中的大量數據中挑選出對罕見和微妙的醫療狀況、癥狀或程式的相關提及。

Med-Gemini在測試中表現相當不錯。它必須仔細地從健康記錄中挑選出所有提及特定醫療問題的內容。除此之外，它還必須評估這些提及的相關性，對它們進行分類，並揭示特定患者是否有該問題的歷史，並展示其推理。

研究人員說：「也許Med-Gemini最值得註意的方面是長上下文處理能力，因為它們為醫療AI系統開辟了新的效能前沿和新穎的、以前不可行的套用可能性。

未來

在以 Med-Gemini 為中心的所有積極因素中，未來會是什麽樣子？用研究人員的話來說，還有很多工作要做。然而，Med-Gemini無疑為自己展示了一個充滿希望的未來。

除此之外，谷歌計劃在整個開發過程中遵守公平糊私密。參照研究人員的話，「私密考慮尤其需要植根於管理和保護患者資訊的現有醫療保健政策和法規。

「公平性是另一個可能需要關註的領域，因為醫療保健中的人工智能系統可能會無意中反映或放大歷史偏見和不平等，可能導致不同的模型效能和對邊緣化群體的有害結果，」他們補充說。