多模態AI(Multi-modal AI)是指能夠處理和理解多種不同類別數據(如文本、影像、聲音、影片等)的人工智能系統。這種技術使AI系統能夠從多個角度和來源接收資訊,並將這些資訊整合起來進行更準確的理解和決策。
盡管多模態AI尚處於初期階段,但已有多個模型開始湧現。Google的 Gemini Ultra模型在多學科多模態理解和推理(MMMU)基準測試中超越了GPT-4,顯示出多模態模型的潛力。
為了保持競爭力,更多的大型語言模型開發者將跟進開發多模態功能。此外,多模態AI預計將解鎖新的商業機會,如Artera在醫療保健領域的套用、Google將Gemini整合到搜尋中、Ghost Autonomy在自動駕駛領域的探索,以及Meta將其套用於消費器材如智能眼鏡。
多模態被視為AIGC行業2024年重要趨勢之一。
2024年第三季度,OpenAI釋出了o1,微軟Copilot套用也釋出了重大升級,多模態大模型的套用能力及使用者體驗持續最佳化。預計2024年第四季度,國內外廠商將釋出更加復雜的多模態大模型,實作文本、語音、影像以及音影片等多模態數據的復雜處理和互動。
多模態 AI 板塊是人工智能領域的一個新興板塊,其發展前景廣闊,吸引了眾多投資者的關註。隨著人工智能技術的不斷進步,多模態 AI 技術的套用場景不斷拓展,相關概念股也受到了市場的廣泛關註。
量子位釋出的【中國AIGC套用全景報告】顯示,2024年中國AIGC(生成式人工智能)套用市場規模將達200億元,2030年達萬億元規模,2024年到2028年的年平均復合增長率將超30%。
廣聯達
公司目前已經構建了建築行業AI大模型層、工具平台層、產品套用層三層AI技術體系。 建築行業 AI 大模型層是由建築領域的專業數據經過有監督精調、專家反饋的強化學習的領域大語言模型與多模態大模型構成,具備建築領域的專業性,能夠在建築設計、交易與成本、施工、運維等建築全領域有更高質素的專業內容輸出,目標成為廣大建築從業人員的 AI助手,服務 500 余項建築細分專業。
潤和軟件
公司推出了以GPT作為基礎架構的NLP大模型技術和Diffusion架構技術的多模態大模型技術為核心演算法能力的新一代AI中樞平台,可以對接各類大模型。公司也同步推出了四款行業套用內測產品,致力於套用最新的AI技術,為不同行業提供智能化解決方案,以AI助力行業數智化升級。
值得買
值得買科技正在開展多模態的工作,具體包括「圖生圖」和「文生圖」模型,短影片指令碼的生成,短影片的自動生成,以及直播數碼人等。在套用層面,值得買科技則主要圍繞內容辨識和生成、智能的使用者畫像和推薦、智能的行銷策略三個方向開展研究,並在文、圖、短影片、直播等領域不斷推進產品開發,相應的套用也正在陸續推出。
雲從科技
公司在技術研究方面一直保持較大投入,在視覺、語音、NLP等方向上都在實踐類似於ChatGPT的「預訓練模型+反饋調優」的技術路線,透過自研的視覺大模型和NLP大模型,大幅提高了演算法的生產效率,也進一步提升了公司核心演算法的效果。
中文線上
公司釋出「中文逍遙大模型。基於創作者的想法靈感,「中文逍遙」大模型大幅提升創作者的效率,可實作一鍵生成萬字,一張圖寫出一部小說,一次讀懂100萬字小說。其中一張圖寫出一部小說即可根據圖片內容撰寫優質小說,展現出多模態能力,同時還為創作者提供「插畫師」、「體系設定」、「文學評論」、「通識問答」等功能服務。
拓爾思
公司數碼經濟研究院及相關研發團隊已經完成康養大模型第一版本的訓練,加入了情感支持、主動問答以及多模態的能力,正在與虛擬人進行整合。公司將利用自研互聯網大數據資訊平台,對世界杯相關的熱點和話題進行大數據分析和研判,透過AIGC的內容自動創作和虛擬數碼人進行聯合,開展「大數據看世界杯」的虛擬數碼人系列服務。