智東西
作者 | 香草
編輯 | 李水青
智東西4月2日報道,今天,亞馬遜雲科技(AWS)與智東西等少數媒體分享了與AI創企Anthropic合作的最新進展,並現場演示了Claude 3大模型的多模態、長文本、語境理解等能力。
AWS近日宣布向Anthropic追加投資27.5億美元,截至目前已經向這家OpenAI強力競對累計註資40億美元。此外,雙方的合作關系也再次加深,Amazon Bedrock引入了Anthropic最新釋出的Claude 3模型。
會後,AWS大中華區產品部總經理陳曉建向我們分享了大模型落地實踐的解讀。在他看來,大模型想要打通落地最後N公裏,需要選擇一個具體的、簡單的切入點,從點到面逐步擴充套件套用場景,由簡單到復雜逐步切入。
當談到AWS下一步的發展戰略時,他稱從客戶需求來看,目前芯片等硬件設施仍然落後於大模型的發展,其叠代速度跟不上模型參數規模的指數級提升,如何將底層能力與大模型復雜度相匹配,是現在面臨的主要挑戰。
一、從基礎設施、工具鏈到AI套用,構建生成式AI完整技術棧
陳曉建首先解讀了AWS的生成式AI技術棧。目前,AWS在基礎設施層面提供GPUs、自研Trainium芯片、Nitro系統等底層設施,在大模型構建工具層面提供大模型托管平台Amazon Bedrock,在套用層面則推出了智能助手Amazon Q、程式碼助手Amazon CodeWhisperer等。
▲AWS生成式AI技術棧
在模型層面,除了此前提供的AI21Labs、Cohere、Meta、Stability AI以及亞馬遜自研的模型之外,近期新增了Anthropic和法國創企Mistral AI的新模型。其中,Anthropic的Claude 3以其多模態推理、轉譯、總結等方面的優異能力突出。
▲Amazon Bedrock提供的基礎模型
Claude 3於3月初推出,分為Opus、Sonnet、Haiku三個規模,其中效能最強的Opus模型引各方面測評結果超越GPT-4一舉成為「最強大模型」。
▲Claude 3各模型效能對比
與Claude 2相比,Claude 3最明顯的叠代體現在多模態能力、幻覺的降低、長文本能力等方面。例如借助視覺能力,Claude 3可以理解圖表、圖形、報告等檔,並從中提取數據。
▲Claude 3的多模態能力
在準確率方面,Claude 3大幅改善了幻覺問題,對沒有把握的答案會進行標明,而不是直接給出錯誤答案。
▲Claude 3幻覺降低
在套用場景上,Claude 3可以適用於程式碼輔助、內容續寫、長文本知識召回總結等,也可以用在亞馬遜的「老本行」電商領域,用來撰寫電商商品描述。
基於Amazon Bedrock的能力,AWS面向企業提供了知識庫工具Knowledge Bases,為基礎模型和Agents提供來自企業內部資料來源的上下文資訊,用於RAG(檢索增強生成),從而提供更相關、更準確和更個人化的響應。
Amazon Bedrock的Agents功能則利用基礎模型,提供使用自然語言進行互動和響應來執行多步驟業務任務的能力。
二、現場演示為老黃續寫PPT,扮演不同MBTI人格答題
AWS技術人員為我們現場演示了Claude 3「中杯」模型Sonnet的多模態、長文本、程式碼、轉譯等能力。
在第一個演示中,演示人員輸入了一張輝達CEO黃仁勛演講的PPT,讓Claude總結PPT的內容。
▲輸入的PPT影像
明顯能看出,Amazon Bedrock上搭載的Claude 3生成速度非常快,迅速總結出了PPT上主要內容。
▲Claude 3總結PPT內容
隨後,演示人員追問Claude 3下一頁PPT可以考慮放哪些內容,又讓其按年份總結圖中內容,並歸納為表格形式。
▲Claude 3將PPT內容總結為表格形式
第二個演示展現了Claude 3的長文本能力。演示人員輸入小說【流浪地球】中的一個片段,在其中插入了一句【三體】中的內容,讓Claude 3從中找出不合理的部份。
這是大模型長文本能力評測中十分重要的一種測試。AWS大中華區產品技術總監王曉野談道,之所以長文本能力這麽重要,是因為在情感陪伴、資料讀取等套用場景中,對大模型的「記憶」能力要求很高。尤其是AI陪伴類產品,如果大模型能記住幾個月甚至幾年前使用者聊過的內容,體驗感會大幅提升。
▲Claude 3大海撈針能力
隨後演示人員又展示了Claude 3的詩歌轉譯能力,並與GPT-4做對比。雖然二者都未達到「信達雅」的水準,但Claude 3的轉譯用語更貼合中文用詞習慣一些。
▲Claude 3轉譯能力
第四個演示針對程式碼能力,演示人員要求Claude 3生成一個貪吃蛇遊戲的Python程式碼設計,並給出了基本玩法和失敗條件。
▲貪吃蛇遊戲Prompt
Claude 3按照需求生成了一個完整的程式碼文件,演示人員將程式碼復制到編譯器中執行,貪吃蛇遊戲成功執行起來,並且符合失敗條件,在蛇撞到地圖邊緣時遊戲結束。
▲貪吃蛇遊戲演示
最後,演示人員展示了Claude 3的開放性問題理解能力。透過一個網上很火的性格測試MBTI的問題,讓大模型判斷不同MBTI人格對同一個問題的反應:如果看到一匹馬進入酒吧,你認為馬會說什麽?
在扮演ESTJ、ENFP兩種不同人格時,Claude 3分別站在理性務實、富有想象力和創造力的角度回答了這個問題。
▲Claude 3扮演ESTJ人格
▲Claude 3扮演ENFP人格
結語:AWS為企業客戶打通大模型落地「最後三公裏」
透過投資Anthropic和提供Claude 3模型,AWS再次提升了作為雲平台的競爭力。相比直接使用Claude 3的API(應用程式介面),Amazon Bedrock能夠提供更為穩定的大模型能力,並透過知識庫、Agents等工具提供差異化價值,幫助企業平衡成本與模型能力。
透過構建完整的生成式AI技術棧,從基礎設施到工具鏈,再到具體的AI套用,AWS全方位支持企業客戶數碼化轉型。Amazon Bedrock平台為企業提供了強大的知識庫工具和Agents功能,使得大模型的套用更加貼合實際業務需求,同時,AWS還透過試驗叠代、專業培訓、原型開發等服務,為企業使用者提供打通大模型落地的「最後三公裏」。