當前位置: 華文世界 > 科技

探索多模態大模型數據提質,飛槳PaddleMIX開發大賽盛大啟幕

2024-10-17科技

飛槳多模態大模型套件 PaddleMIX 整合了業界前沿的多模態大模型與飛槳框架底層高效能技術,全面兼顧高效能演算法、便捷開發、高效訓練和完備部署,其豐富的多模態模型庫覆蓋影像、文本、視訊、音訊模態模型,以及具備多模態理解和多模態生成的能力,適用金融文件多模分析、多模態醫療輔診、電商智慧行銷、教育拍照解題等產業場景。預訓練效能領先同類產品8%。精調階段吞吐量提升68%,推理效能優於同類技術34%。


然而在實際計畫開發過程中,各個領域的使用者除了使用訓練好的模型進行推理,也會使用專有數據微調來提升模型效果。在這個過程中,需要對數據進行大量的分析和處理操作。使用者依賴這些數據處理的工具,可在套件完成端到端的開發體驗,進一步擴大其使用者數量和套用範圍。為探索多模態大模型數據領域的工具元件建設,推動科技進步與產業升級,百度飛槳攜手開放原子開源基金會聯合主辦的多模態大模型套件 PaddleMIX 開發大賽正式拉開帷幕。

本次多模態數據提質大賽賽題名稱為「為飛槳多模態大模型套件豐富數據分析和處理的能力」。旨在從多模態大模型數據的領域開展工具元件的建設工作,完善飛槳多模態大模型套件數據分析和處理能力,降低使用者開發成本。同時,大賽也為開發者們提供了寶貴的交流平台,促進國內外開發者之間的合作與創用CC。透過共同參與計畫的開發、討論,參賽者不僅能夠提升個人的技術水平與計畫經驗,還能夠拓寬視野,結識誌同道合的夥伴,為未來的職業及學術發展奠定堅實的基礎。

01

賽事亮點速覽

權威賽事: 由百度飛槳、開放原子開源基金會主辦,由重慶市經濟和資訊化委員會、中國石油勘探開發研究院聯辦。

高額獎池: 150,000 元。

目標實作物件: 將驗證有效的數據處理方案合入 PaddleMIX 套件,包括數據分析和處理功能、單元測試適配、文件適配。

技術路徑: 采用開源數據 llava_v1_5_mix665k,有效性驗證試驗在 LLaVA1.5 sft 階段進行。技術方案可從單條數據和數據集多個角度進行數據品質的分析過濾,也可以從訓練數據配比的角度分析訓練數據的均衡性。最後透過一個 PR 的形式,送出到倉庫,由倉庫的負責人和百度飛槳研發導師,共同進行程式碼審查,最終合入倉庫主分支。

02

任務介紹

任務描述:

1. 調研多模態數據分析、過濾、配比、視覺化等技術。2. 實作基本的數據處理算子,並在 llava_v1_5_mix665k 數據集上驗證。3. 根據上述算子集合,探索訓練數據處理策略,並在 LLaVA1.5 sft 階段驗證方案,送出評估結果和日誌。4. 整理程式碼並送出 PR 至 PaddleMIX 官方倉庫,協同飛槳導師,完成程式碼修改與合入。

參考方向: 單樣本(圖文相關性、文本品質、圖片品質、問題是否合理、回復是否有幻覺)數據集整體(重復樣本,配比分析,多樣性分析)

操作環境: 需滿足 LLaVA 模型進行 SFT 訓練的要求,建議使用4張或8張 A100顯卡進行模型上的數據策略驗證(參與一等獎評選者必須自行完成驗證過程)

註意事項:

1. 比賽相對開放,可以從數據過濾,數據配比和數據生成等多個角度進行思考;

2. 數據分析結果視覺化;

3. 數據處理粒度盡可能小,復雜功能透過小算子組合。

03

參賽物件

參賽者身份不設限,高校、企業、科研院所等均可報名,國內外開發者均可報名。隊伍人數不限,可單人或組隊參賽。

04

賽程安排

比賽報名啟動: 2024年09月25日

初賽送出截止: 2024年10月25日

初賽作品結果公示: 2024年11月1日

決賽作品送出截止: 2024年11月25日

完賽頒獎: 2024年12月31日

05

參賽作品

▎作品送出:

1. 參賽作品送出方式

(1)參賽隊伍送出作品前,需將隊長在大賽官網上的註冊信箱、使用者名稱、姓名、手機號碼等資訊信件發送給本賽項工作人員(聯系信箱:[email protected],信件主題命名為:「參賽隊伍名稱」建倉申請),工作人員確認後為該參賽隊伍在 AtomGit (AtomGit 網址: https://atomgit.com/ )上匯入一個與目標適配工具元件同名的私有倉庫,程式碼來源設定為 GitHub 上的適配工具元件 git 連結,完成程式碼倉庫的初始化。然後將隊長添加為該倉庫管理員。參賽隊伍完成作品後,將作品原始碼及相關文件送出至該倉庫,並在 GitHub 上送出一個相同程式碼內容的 PR 到工具元件倉庫中,@倉庫負責人和百度研發導師進行程式碼審查。參賽隊伍所送出作品(含初賽作品及決賽作品)命名方式為:參賽隊伍名稱+初賽/決賽作品+作品標題。

(2)在作品送出周期內,參賽隊伍可在不改變作品名稱和主要功能的基礎上多次送出。參賽隊伍在所參加賽程中多次送出作品的,以其最後一次送出的作品視為其在該賽程中參與評審的參賽作品。同時在競賽期間,如賽項組織方有需要,參賽隊伍需配合補充送出其它作品相關材料。

(3)所有已送出的參賽作品和相關材料原則上不予退還。

2. 參賽作品送出規範

(1)參賽作品須符合本賽項及所屬賽道方向,作品名稱應能體現其主要特征。

(2)參賽作品必須為原創作品,不得侵犯任何第三方的專利權、著作權、商標權及其他智慧財產權,且不得違反國家相關法律法規,否則將取消該作品的參賽資格。

(3)作品允許使用他人開原始碼,但必須在符合該程式碼的開源授權基礎上,註明出處,以及與作品其它程式碼的依賴關系,且不得使用 GPL、LGPL、Mozilla 協定等強約束性開源協定下的其他開原始碼;送出作品時,必須在分析設計文件中明確說明作品中使用的其他開原始碼的協定、作用及所占比例。

(4)作品應能正常執行並可達到預期結果。作品應與設計文件描述的功能一致,如未能實作設計文件中描述的所有功能,應註明未實作功能及其所占比例和重要程度。

(5)參賽作品的程式碼註釋量應足夠高,原則上不得低於程式碼量的5%。

▎初賽作品要求:

初賽階段要求送出 RFC 文件至:

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX

參考樣版:

https://github.com/PaddlePaddle/community/blob/master/rfcs/PaddleMIX/template.md

▎初賽晉級:

送出 RFC 並透過評審即獲得晉級決賽資格,晉級決賽的名額不作限制。初賽後視根據情況可能提供機器資源。

▎決賽作品要求:

1. 送出包含作品程式碼的 GitHub PR 連結。

2. PPT 展示適配過程中的階段性成果以及過程中如何解決遇到的技術性問題(10頁左右)。

▎決賽評選:

按照分數從高到低排名,依次給予對應的獎項(允許獎項空缺)。

一等獎要求分數>=90分

二等獎要求分數>=60分

三等獎要求分數>=40分

06

獎項設定

一等獎:5萬,一支隊伍

二等獎:3萬,兩支隊伍

三等獎:1萬,四支隊伍

開源貢獻獎:榮譽證書,三支隊伍

▎培訓資料

技術培訓

官方技術社群答疑交流:

https://www.wjx.top/vm/wKqysjx.aspx?udsid=462819

資料下載

https://arxiv.org/abs/2309.02033

https://arxiv.org/abs/2407.08583

https://github.com/haotian-liu/LLaVA

https://github.com/modelscope/data-juicer

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/datacopilot

https://github.com/PaddlePaddle/PaddleMIX/tree/release/2.0/paddlemix/examples/llava

賽事報名

https://competition.atomgit.com/previewinfo?id=d65b849bc916bd42e1bc5f5ee2562efa

掃描海報二維碼加入 PaddleMIX 賽事官方技術交流群