當前位置: 華文世界 > 科學

科學家提出情景學習新範式,讓學霸大模型向學弱大模型輸送能力

2024-03-01科學

近日,上海演算法創新研究院大模型團隊的研究員李誌宇和同事提出一種 情景學習新範式:SLEICL(基於強模型增強的情景學習 Strong LLM Enhanced ICL),能更好地加速小模型的學術研究和產業落地。

借助這一方法可以大幅提升小模型的效能表現,從而讓小模型在各種套用場景中更具競爭力。

圖 | 李誌宇(來源:李誌宇)

在當前的大模型研究與產業化實踐中,存在把模型「做大」和把模型「做小」這兩個方向。

前者致力於達成超大的參數規模,往往達到千億左右;後者致力於實作較少的參數規模,往往多為十億左右。

「做大」,能讓大模型具備更強的湧現能力和推理能力,從而適用於難度更高的任務。「做小」,能讓大模型獲得更優秀的推理能力,從而能被部署到手機、手表、耳機、錄音筆等各類小微終端之中。

情景學習(ICL,In-context Learning), 是大語言模型能力的一個重要體現。

近期,有關大模型的情景學習機制和原理的相關研究,已經成為大模型的一個熱門的方向。

前不久,在多個電腦人工智能頂會上,有關情景學習的研究內容均被熱烈討論。

情景學習的通常做法是:給到大模型一些範例和相應回答,然後大模型就能推斷出下一個未知問題的答案。

比如將「我愛你」和「我恨你」這兩個例子給到大模型。「我愛你」的標簽是「積極」,「我恨你」的標簽是「消極」。

那麽,當你對大模型表示「我喜歡今天的陽光」,大模型大概率就能推斷出「積極」的標簽。

目前,針對情景學習的主要研究方向包括:範例篩選方法、範例順序方法、範例結構方法、以及範例標簽分布方法。

但是,這些方法的局限在於:仍在透過選擇更好的範例、以及透過選擇範例的呈現形式,來幫助大模型更好地從範例學習中掌握解決問題的方法。

那麽,如何降低大模型的學習難度?即如何讓大模型無需透過範例這一媒介,就能直接獲取解決下遊任務的方法?

一般來說,大模型的參數規模越大,情景學習能力也就越強。然而,當參數規模擴大的時候,算力要求也就越來越高,訓練開銷和推理開銷也會急劇增長。

這些急劇增長的算力要求限制了大模型的套用場景,以至於很難將其在手機端進行部署。

隨著大模型參數規模的逐漸增大,對於計算成本和儲存成本的消耗也隨之增加。尤其是 GPT-4 或千億以上參數級的超級大模型,訓練成本相當高昂。

因此,目前的研究方向之一便是:如何針對模型進行高效壓縮,以便在加速推理的同時保持效果。 若能將模型進行壓縮,還能降低其推理成本,甚至讓其與購買執行模型的端側器材成本相當。

近期,已有不少研究致力於開發小規模、低算力需求的模型,並取得了一定成果。

2023 年 6 月,微軟釋出 13 億參數的語言模型 Phi,同年 9 月 Phi-2 的參數擴大到 27 億。據報道,微軟的「小模型」已經在金融客戶和銀行客戶中測試。此後,國內廠商也逐步跟進小模型的研究與套用。

這一系列小規模參數模型的釋出,也表明大模型研發逐漸從「做大」轉移到「做小」,且呈現出 N 個⼤模型 K 個小模型,同時 N << K 的現象。

所以,如何讓小模型保持高效率的同時,提高其下遊任務的效能,成為一個重要的方向。

基於此,人們也在探索如何讓小參數模型的能力,能夠媲美大參數模型。

另一方面,在目前的情景學習方法之中,通常需要針對每個測試問題進行一次範例篩選,無法針對某一個下遊問題形成通用的「演示內容」,從而達到一勞永逸的效果。

以人類學習為例,在獲得一些範例之後:其一,我們不僅可以直接透過找出規律,推測出來給定問題的標簽。其二,還可以針對範例進行研究,從而形成一套更加抽象、更加通用的解題法則。

而第二種方法更加具備普適性和穩定性,也是廣受認可的一種學習方法。以處理情感分類任務為例,人類能夠總結一些通用的解題法則。

比如當我們在學習一些表達情緒的關鍵詞時,就要關註否定詞對於原始情感的反轉。

而在本次研究之中,李誌宇等人透過實驗發現:基於能力較強的大模型,可以總結出來一些技能經驗,他們將其稱之為魔法書(Grimoire)。

而當把這些技能經驗傳遞給能力較弱的大模型,則能顯著提高能力較弱的大模型在下遊任務上的表現。 甚至對於部份小模型而言,透過學習 Grimoire,它們在一些任務上的效能表現甚至超過 GPT-4。

圖 | 模型原理示意圖(來源:arXiv)

整體來說:

對於大模型的情景學習來說,該團隊提供了一個全新的視角,幫助大模型針對問題實作更好的泛化,無需再將情景學習拘泥於範例樣本的構建和篩選。

對於大小模型的協作來說,針對端雲協同的模型互動、以及利用小模型的能力,本次研究提供了新的參考方案。

圖 | 學習魔法書的小孩(來源:DALL-E 生成)

如果說之前的 AI 研究是以月為單位來計算,那麽在大模型時代則是以周為單位來計算。各類 AI 技術「日新周異」,在這種高速創新的環境壓強之下,也給大模型時代的從業者提出了更大的挑戰。

研究伊始,李誌宇和同事希望借助於模型的自我糾正來提升小模型的表現。但是,隨著實驗的進展他們發現受限於小模型自身的推理能力和理解能力,導致很難獲得有效的提升。

正當一籌莫展之時,他們無意間看到了一則朋友圈。發這則朋友圈的人是一名家長,其分享了關於「學霸筆記」的內容。

這讓他們瞬間頓悟:既然小模型的推理和總結能力比較弱,那麽為什麽不能讓強模型(學霸)去總結經驗(魔法書),然後將經驗傳授給小模型(學弱)?

上述想法一經提出,立馬獲得組內其他成員的一致贊同,於是李誌宇等人迅速開展模型設計和模型實驗。

「當發現最終效果超過預期之後,我們不得不感嘆:科研源自生活!」李誌宇表示。

日前,相關論文以【增強大型語言模型所需的全部內容就是魔法書】(Grimoire is All You Need for Enhancing Large Language Models)為題發在 arXiv [1]。

陳鼎是第一作者,李誌宇擔任通訊作者。

圖 | 相關論文(來源:arXiv)

此外,在本次論文釋出一個月左右,來自美國加州大學柏克萊分校、美國卡內基梅隆大學和 DeepMind 公司組成的研究團隊,發表了一篇類似的論文[2]。

李誌宇表示:「同行的這篇論文和我們的思路如出一轍,他們提出的方法正是我們所提出方法中第一個階段樣本篩選中的其中一種,即困難樣本篩選。同行提出的方法,更像是我們所提出的方案的一個子集,這為我們的後續研究增強了信心。」

目前,李誌宇和同事提出的新型情景學習方法,旨在透過「強模型」基於代表性範例樣本生成 Grimoire,從而提升「弱模型」在下遊任務上的表現。

未來,他們打算訓練一個專門生成 Grimoire 的大模型,從而保證 Grimoire 生成的穩定性和可控性。

同時,也將基於小模型的任務描述和現有範例等資訊,生成代表性的範例樣本。這樣一來,就不需要遍歷訓練集進行篩選,而是可以透過專門的小模型,來生成特定的代表性樣本。

不僅能讓樣本更具有針對性,也能保證代表性樣本的穩定性,同時還能避免對於訓練集樣本的依賴。

屆時,透過輸入測試樣例的少量資訊,即可生成幾個範例樣本,以此作為提示下遊模型完成任務的上下文學習範例,從而大幅增強下遊模型的效能表現。

假如這些後續研究能夠順利完成,將能更大程度地提升小模型的能力,從而為產業化落地提供更多支持。

參考資料:

1.https:// arxiv .org/abs/2401.03385

2.http://export. arxiv .org/abs/2402.05403

營運/排版:何晨龍