數據驅動未來：AI大模型在多場景套用中的挑戰與機遇

2024-02-18科技

在人工智慧概念爆發伊始,演算法、算力、數據就是重要的三要素,進入落地階段,智慧互動、人臉辨識、無人駕駛等套用成為最大的熱門,AI 公司開始比拼技術與產業的結合能力,而數據作為 AI 演算法的「燃料」,是實作這一能力的必要條件。因此,為機器學習演算法訓練、最佳化提供數據采集、標註等服務的人工智慧基礎數據服務成為這一人工智慧熱潮中必不可少的一環。

大模型時代的到來,正加速推動人工智慧開發從以模型為中心朝著以數據為中心的方向轉變。這使得數據標註的重要性更加凸顯。相關機構根據國內需求方與供應方營收增長情況推算,預計2024年數據標註市場規模為130億~180億元,2025年市場規模為200億~300億元。

對於如何充分發揮AI數據對人工智慧產業落地的價值,雲測數據總經理賈宇航認為,一是加強場景化數據的能力,換言之就是為人工智慧細分場景的落地,提供更加垂直且豐富的數據,滿足其長尾場景的需求;二是提升數據標註的準確性,從工具、規則、流程的開發制定,到標註人員的素質培養,從細節提升數據標註準確性;三是充分發揮「底層技術+服務能力」的力量,具備更深刻的行業領域知識、更懂場景、更懂技術、更具行業前瞻性。

在賈宇航看來,未來,數據標註也會和人工智慧技術一樣,逐漸深入到各個行業及場景當中,呈現細分化、專業化的發展趨勢。在這一過程中,對技術叠代將提出更高要求,不僅數據處理要做到足夠專業,對行業特征和企業需求也要有深入了解。例如,在自動駕駛領域就包括了點雲聯合標註和時序標註的相關要求,這就需要一套強大的標註工具滿足點雲和不同維度數據融合處理的要求。

談及面向大模型高品質數據需求,雲測數據在相關層面有哪些優勢布局時,賈宇航表示雲測數據一直將數據品質作為AI數據服務的發展核心,不僅聚焦於技術研發最佳化,更是延伸至人才培養、產品服務等環節,為企業提供高品質的場景化的AI數據服務。業務層面透過數據采集、數據清洗、數據標註等方式為企業引入AI數據處理,以標準API介面支持數據匯入和匯出、支持已有演算法預標註功能,可以提供多項AI數據產品套用和AI數據服務,跟任何的企業的資料庫打通,完成原始數據到標註數據的快速積累,加速AI模型的開發行程。

作為人工智慧的「燃料」,大量訓練數據的訓練支撐是AI演算法的基礎。訓練數據越多、越完整、品質越高,模型推斷的結論越可靠,因此一個AI模型從誕生到完善,直至套用於產品,再到商業化地落地,都需要大量數據的餵養。

尤其在大模型領域,大模型不是靜態的,是不斷學習的。因此,數據和演算法就形成了「飛輪效應」,好數據越來越多、演算法也會越來越先進;演算法越有效果,使用者增加,數據反饋也會更多。隨著人工智慧的套用場景越來越多元化,需要處理多種模態的數據,例如文本、影像、語音等。未來,大模型將更加註重多模態的融合,以處理更加復雜的套用場景。