AI訓練師的困局：餵飽AI，餓死自己

2024-07-14科技

「工作越積極，我被淘汰得越快！」

這聽起來荒誕的現象卻在AI行業如火如荼地上演。

當一種新技術誕生時，往往會帶來新的工作類別。數據標註就是大火AI下的其中一種新職業。

在判定式AI的時代，人工智能中的「人工」主要是數據標註，幫助AI處理數據，進行分類。

到了生成式AI的時代，機器代替了原來的數據標註，但對人工的需求卻沒有減少，反而變成了更高的工作需求——AI訓練師。

數據標註員還是AI訓練師？

很多時候，市場常常將「數據標註員」和「AI訓練師」混為一談，兩者都是伴隨人工智能技術發展起來的一種工作類別。但實際上，負責的卻是AI大模型訓練中不同的階段，且價值相差甚遠。

回到在AI大模型的訓練過程，主要有五個步驟：數據準備、模型設計、預訓練、微調和模型部署。

數據準備便是數據標註員主要負責的環節。而AI訓練師的職責範圍覆蓋更多環節，包含了預訓練、微調和模型部署。除了具體工作內容不同，職位也有所不同。

在數據準備的環節中，數據標註員要完成對數據的處理。例如，在一張圖片中，框出不同的物體並打上機器可以理解的標簽，相當於教機器認識世界。這個過程不僅有圖片，還有語音、文本、影片等數據。

而AI訓練師則需要結合業務需要來訓練數據、進行演算法測試，推進模型的實際落地。另一方面，AI訓練師還需要根據測試結果，反推數據準備環節的標註體系，提出對標註工具的功能建議、協作流程最佳化等。

總的來說，就是一手調參數，一手抓數據，讓AI生成的內容更準確。 於是常常招聘要求AI訓練師需要有一定的IT技術背景。

在一些特定的行業，例如遊戲、電商等，還會將AI訓練師的工作稱為「煉丹」——AI訓練師需要不斷地對模型進行調優、測試，大量嘗試的經歷就像煉丹一樣需要精細的操作。

這兩種職業難度的不同，最直觀的還是市場薪資的差距。

AI訓練師的薪資一般起薪在10k以上，而這個數值對於數據標註員來說，降到了4k。在一些非一線城市，數據標註員的起薪甚至降到了2～3k。

值得一提的是，更多的數據標註崗位是以兼職的形式出現，不需要坐班，有電腦就行。

一位招聘人員告訴PConline，兼職的薪資按勞動量來計算。招聘人員給出了一個公式：

薪資計算方式：完成2000框=8 +* 元，完成4000框=16 + *元，完成5000框=20 +*元。

這種被稱為「計件模式」，基礎薪金加階梯式獎勵。當處理的數據超過某個數額時，會賺取更多獎勵。市場上也有不少直接明碼標價的，「拉一個框2毛錢」，多勞多得。

在招聘資訊上常見的話術是 「專案多，結算快，寶媽、學生黨速來！」「賺錢上不封頂」 。PConline嘗試發現，剛上手的工作人員拉一個框需要1分鐘，一天8小時工作，算一天拉500個框， 一個月工作25天，才能賺到2500元。

高薪下的出路迷茫

AI的發展影響著政策的變化，此時整個數據服務市場也進入了高速發展期。在2020年，由人社部、工信部等單位共同參與制定的【人工智能訓練師國家職業技能標準(2021年版)】(下文簡稱為【標準】)中，AI訓練師作為一門新興職業被納入了標準職業的範圍。

AI訓練師的職業技能劃分為五個等級。值得註意的是，【標準】將數據標註納入AI訓練師初級工（五級）的職業功能之一。數據標註的工作正式成為AI訓練的「子集」。

截圖來自【人工智能訓練師國家職業技能標準(2021年版)】

根據德勤釋出的數據， 中國人工智能基礎數據服務的市場規模在2027年有望達到130-160億元。

除了占據先發優勢的互聯網巨頭——阿裏眾包、百度智能雲數據眾包等，還有不少在這個風口冒出來或是獲得了迅猛增長的明星企業。

例如科創企業海天瑞聲。受到AI浪潮的影響，去年該公司股價漲幅超過70%。還有「AI五小龍」之一的老牌AI公司商湯科技，在2023年財報中表示，「生成式AI收入由2022年的人民幣394.7百萬元增長至2023年的人民幣1,183.7百萬元，增幅達到199.9%」。

據天眼查數據顯示，僅「數據標註」領域，目前中國就有2500余家公司。 但與快速擴張的市場規模相比，行業人力資源卻面臨嚴重緊缺。

根據2020年人力資源和社會保障部官網釋出的【新職業——人工智能工程技術人員就業景氣現狀分析報告】， 中國人工智能人才目前缺口超過500萬 ，國內的供求比例為1：10，供需比例嚴重失衡。

猛然一看，這個行業缺口大，薪資高，是一片藍海，只要進去就能成為「第一批吃螃蟹的人」。事實上卻勸退了觀望的人，因為職業路徑卻不夠清晰。

不少網友分享AI訓練師的職業發展，無外乎兩種方向：

一是繼續考級，成為技術專家或顧問後，考慮團隊管理；

二是開數據標註公司。有過訓練師的經驗，更了解上遊的要求和玩法。如果老家是非一線城市，可以直接回家開個數據標註公司。「用三四線城市的低人力成本，賺全國的錢，降維打擊。」

許多網友詼諧地將數據標註員稱為「拉框的」，而AI訓練師則是「調參俠」。這樣的調侃背後，其實也是對職業未來規劃的擔憂，對未來沒有安全感。

被取代的未來

回到學術界，AI訓練師的工作其實是生成式AI發展中的一種範式，叫做RLHF，Reinforcement Learning from Human Feedback，人類反饋強化學習。

就像是小孩子剛開始咿呀學語的時候，大人不斷指著街道上的車輛告訴小孩，這是「汽車」。隨著大人的教學，小孩子才能逐漸將「汽車」和看到的事物聯系起來。

這種範式就是需要AI訓練師不斷地「鼓勵」AI生成的正確答案，「修正」AI的錯誤答案，從而讓AI生成的內容更加準確。

其實， 這就是人工智能中「人工」兩個字的來源 。但是從去年9月開始，情況發生了改變。

去年九月，谷歌釋出了一篇主題為RLAIF的論文， Reinforcement Learning from AI Feedback AI反饋強化學習。谷歌提出，RLAIF用AI來代替RLHF當中的人類，完成生成反饋的工作，讓大模型不再受制於人類的局限。

在對比分析後，谷歌研究員發現，RLHF和RLAIF訓練後的模型生成的答案傾向性幾乎沒有差別。甚至一些細節上，RLAIF還更勝一籌。

技術的發展速度超過了所有人的想象。OpenAI最新公布關於CriticGPT的論文引起了不少轟動。「Critic」是批評家的意思，這個AI模型的主要功能就是在RLHF訓練中挑錯。名副其實的「用魔法打敗魔法」。

截圖來自OpenAI官網

根據OpenAI內部訓練師的分享，在找bug方面，人類訓練師的成功率是25%，而CriticGPT則達到了驚人的75%！這簡直就是妥妥的斷人財路。

雖然， AI模型「抄近道」、幻覺等問題還是困擾著這些AI巨頭，但網友們看到這些技術之後的第一反應是：下一個被幹掉的會不會就是AI訓練師？

「prompt之類的偵錯，肯定會往標準化的方向走。那麽一旦標準化，訓練師自然就沒啥價值了。」大廠資深營運牛同學對PConline說道。

「AI教父」吳恩達也曾表示過，真正的AI不應該是用prompt來調動，而是自然語言。這也就意味著，AI和實際使用的使用者之間應該做到直接溝通，而不需要其它「橋梁」。

牛同學對PConline分享道，在身邊有很多朋友準備考人工智能訓練師的證書，想要轉向AI賽道。但他給出的建議是不要「一股腦兒投入」，按照現在的技術發展速度來看，極有可能「還沒就業，就先失業了」。

這便帶來新的迷思，身處AI領域的從業者，其實安全感並沒有保障，特別是重復類的工作，只有能夠適應市場需求的工作才更有發展潛力，因為「AI訓練可以標準化，但需求是一直在變的。」