來源:私募排排網
2023年以來,人工智慧行業發生了質的改變,AI成為了人類第4次產業革命,已經成為共識。AI正在改變著我們的生產生活,由於AI依然處於發展初期,巨大的發展空間,給產業鏈上下遊公司都帶來了較大的「躍升」機會。如AI算力龍頭輝達在一年多的時間裏股價翻了7倍,總市值接近蘋果公司。
AI產業鏈上遊為算力、語料,中遊為AI大模型,下遊為AIGC等AI套用。在發展初期,由於大模型需要不斷地經過大量訓練,實作叠代升級,因此,在產業早期,作為行業「賣鏟人」往往是最先受益的,主要包括AI算力和AI語料。
正是基於以上邏輯,AI產業鏈「賣鏟人」誕生了諸多的牛股,如AI算力方向的高新發展、鴻博股份、工業富聯、中際旭創等等;AI語料方面的中國科傳、華策影視、中文線上等等。
AI語料公司多數來自文化傳媒行業,相比算力,他們在AI產業鏈中不僅僅充當「賣鏟人」,不少還是AI套用的主體。 不少公司在AI產業鏈中,既扮演著大模型的上遊供應商,也同時是下遊套用商,如影視公司既提供AI語料,也利用AI技術進行創作,可以實作降本增效。
AI語料的品質直接影響到AI模型的效能!
AI語料就是人工智慧系統所需的各種型別的數據資料,這些數據資料可以是文字、圖片、語音、視訊等多種形式。它們為AI模型提供了學習和推理的基礎,使模型能夠模擬人類的思考和行為 。
AI語料的組成豐富多樣,其中最常見的是文本數據。這些文本數據可以來源於書籍、文章、論壇貼文、社交媒體內容等,它們為AI模型提供了豐富的語言資訊和知識。此外,圖片、語音、視訊等多媒體數據也是AI語料的重要組成部份。這些多媒體數據為AI模型提供了更加直觀、生動的學習材料,有助於模型更好地理解和處理復雜的資訊。
AI語料在AI套用中發揮著至關重要的作用。 以自然語言處理為例,AI模型需要學習大量的文本數據,才能理解人類語言的含義和規則,從而實作自動轉譯、文本摘要、對話生成等功能。在語音辨識和語音助手領域,AI模型需要分析大量的語音數據,以辨識不同的聲音和語調,從而實作準確的語音辨識和自然的語音互動。
AI語料的品質直接影響到AI模型的效能,因此,構建高品質、多樣化的語料庫對於AI的發展至關重要 。
國產大模型加速叠代升級,AI語料公司有望受益!
近期,國內AI大模型相繼取得突破。 3月18日,月之暗面宣布Kimi智慧助手啟動200萬字無失真上下文內測,Kimi智慧助手憑借突出的長文本無失真處理能力,獲得了良好的使用者口碑和使用者量的快速增長。七麥數據顯示Kimi智慧助手在iPhone效率類免費榜排名從1月14日的第436名提升至3月24日的第1名。
3月22日,阿裏通義千問宣布向所有人免費開放1000萬字的長文件處理功能,科研、法律、教育等領域的專業人士,都可透過通義千問網站和APP快速研讀科研論文、解讀法律條文、分析考試成績等。
3月22日據【科創板日報】報道,百度文心一言下個月將進行版本升級,屆時將開放長文本能力,文字範圍在200萬-500萬。
3月23日,國內初創大模型公司階躍星辰正式釋出Step系列通用大模型(包括Step-2萬億參數MoE語言大模型的預覽版)。
3月23日,360智腦官方釋出訊息稱,360智腦正內測500萬字長文本處理功能,該功能也即將入駐360AI瀏覽器。
隨著Kimi等國產上下文長文本大模型快速破圈,大語言模型的湧現能力更是讓AIGC套用體驗得到大幅提升,有望加速催動國內大模型廠商進行產品叠代釋出。 大模型的前進演化依賴於大量多樣化的訓練數據持續投餵,將拉動對AI語料的需求。
此外,3月20日,法國競爭管理局裁定對谷歌罰款2.5億歐元,主因谷歌未經通知使用了法國媒體出版商和新聞機構的內容訓練聊天機器人,違反歐盟智慧財產權規則。 隨著大模型發展最佳化,語料的價值有望放大。
筆者根據行業研究報告、上市公司資訊與公告等內容梳理發現,A股中有多家公司屬於AI語料概念股。其中, 截至2月27日收盤,華策影視、掌閱科技、中廣天擇等多家公司股價在今年來已經大漲30%以上。
如在AI預料方面,華策影視是國內影視制作龍頭企業,影視劇版權數量超5萬小時,構建了中國最大的影視素材營運平台。
風險揭示: 本文所涉及的內容不保證數據完整性與準確性,分析結論僅供參考,所涉及品種均不構成實際投資操作建議。股市有風險,投資需謹慎。
版權聲明: 未經授權,任何個人或機構不得進行任何形式的修改或將其用於商業用途。轉載、參照、轉譯、二次創作(包括但不限於以影音等其他形式展現作品內容)或以任何商業目的進行使用的,必須取得我司授權並註明作品來源為私募排排網,同時載明內容網域名稱出處。