上交大釋出首個OpenAI o1復現專案進展報告，滿滿的經驗洞察

2024-10-09科技

來源：機器之心Pro

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou @jiqizhixin .com；zhaoyunfeng @jiqizhixin .com

團隊介紹：本專案的核心開發團隊主要由上海交通大學 GAIR 研究組的本科三年級、四年級學生以及直博一年級研究生組成。專案得到了來自 NYU 等一線大型語言模型領域頂尖研究科學家的指導。

詳細作者介紹見：https://github.com/GAIR-NLP/O1-Journey#about-the-team。

在人工智能領域掀起巨浪的 OpenAI o1 模型釋出三周後，一支由高校年輕研究者組成的團隊今天釋出了題為 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅：戰略進展報告)" 的研究進展報告。這份報告的獨特之處在於（1）不僅提出並驗證了「旅程學習」的技術的巨大潛力（研究者也認為是 o1 取得成功的關鍵技術）：透過 327 條訓練樣本，鼓勵模型學會反思、糾錯、回溯，其在復雜數學題目上 表現絕對效能就超過了傳統監督學習 8% 以上，相對效能提升超過 20% ;（2）並且，其前所未有的透明度和即時性，不僅詳細記錄了團隊在復現過程中的發現、挑戰、試錯和創新方法，更重要的是，它倡導了一種全新的 AI 研究範式。研究團隊負責人表示：" 我們的主要目標不是達到與 OpenAI 的 o1 相當的效能 —— 考慮到可用資源有限，這是一個極具挑戰性的任務。相反，我們的使命是透明地記錄和分享我們的探索過程，聚焦於我們遇到的根本問題，發現新的科學問題，並辨識導致 o1 的成功的關鍵因素，並與更廣泛的 AI 社區分享我們的試錯經驗。 o1 技術無疑會成為全球各大 AI 科技公司爭相復現的目標。如果我們能夠及早分享一些復現過程中的經驗教訓，就能幫助其他公司減少不必要的試錯，從而降低全球範圍內 o1 技術復現的總體成本和時間。這不僅有利於推動技術的快速發展，也能促進整個 AI 行業的共同進步。」

團隊提出的模型在同一道數學題上，與 OpenAI 的 o1-preview （答對）及 GPT-4o（答錯）的比較例項，證明旅程學習不斷試錯、反思、自我糾正的能力在復雜推理任務場景上非常關鍵。

技術報告連結：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report.pdf

Github 連結：https://github.com/GAIR-NLP/O1-Journey

o1 討論資源：https://github.com/GAIR-NLP/O1-Journey/tree/main/resource

該報告發現了什麽？從「"捷徑學習"」到「旅程學習」，從「浮光掠影」到「深耕細作」

圖：從 "捷徑學習" 到 "旅程學習" 的範式轉變。這是一個用於推理任務的搜尋樹。對於數學問題解決任務，根節點代表初始問題，而葉節點則是最終結論。綠色節點表示正確答案，紅色節點表示錯誤答案。傳統上，學習主要集中在對直接從根到葉的捷徑路徑進行監督訓練。然而，本研究探索了對整個探索路徑進行監督學習，這包括了試錯和糾正的過程。

團隊認為，大多數現有的機器學習或大模型訓練方法（如監督式微調）都可以被歸類為 "捷徑學習" (Shortcut Learning) ，即模型學習到達正確答案的直接路徑。這種傳統範式雖然在特定、明確定義的任務中可能有效，但在面對復雜、動態和開放性問題時顯示出明顯的局限性。捷徑學習具有以下幾個關鍵特征：(1) 註重快速結果：強調在短時間內達到特定的效能指標或完成特定任務。(2) 高度依賴數據：效能改進通常依賴於增加訓練數據量，而非改進學習演算法本身。(3) 泛化能力有限：在訓練數據分布之外的場景中，效能可能會急劇下降。(4) 缺乏自我糾正能力：這些系統通常缺乏辨識和糾正自身錯誤的能力。盡管捷徑學習推動了人工智能的許多進步，但它難以產生真正智能和可靠的人工智能系統，無法應對現實世界挑戰的復雜性。隨著我們追求更高級形式的人工智能甚至超級智能，這種方法的局限性變得越來越明顯。

認識到這些缺點，本文提出了一種名為 "旅程學習"（Journey Learning) 的新範式。旅程學習旨在使人工智能系統能夠透過學習、反思、回溯和適應不斷進步，就像人類一樣，從而展現出更高水平的智能。

圖："捷徑學習"(Shortcut Learning) 和 "歷程學習"(Journey Learning) 在 MATp00（Lightman 等人，2024 年）上的表現。

如圖所示，團隊提出了 "旅程學習" 範式，它鼓勵模型不僅學習捷徑，還要學習完整的探索過程，包括試錯、反思和回溯。僅使用 327 個訓練樣本，不借助任何額外訓練技巧， 旅程學習在 MATH 數據集上的表現就超過了傳統監督學習 8% 以上，展示了其極其強大的潛力。作者也認為這是 o1 技術中最關鍵的組成部份 。

表：捷徑學習和旅程學習的多維度比較

模型生成的例子

技術細節是什麽？o1 技術探索之旅

團隊負責人分享：「如果我們能夠及早分享一些復現過程中的經驗教訓，就能幫助其他公司減少不必要的試錯，從而降低全球範圍內 o1 技術復現的總體成本和時間。這不僅有利於推動技術的快速發展，也能促進整個 AI 行業的共同進步。」

如圖所示，從 OpenAI o1 9 月 12 日釋出的過去三周內，該團隊對 o1 技術已經完成了系統化、多階段的探索。這個過程始於使用 OlympicArena 數據集對 o1 進行初步評估（如下表格），旨在全面了解其在多個學科領域的認知能力。研究的核心集中在 o1 思維結構的分析上，特別關註 "長思維" 這一關鍵概念。整個探索技術涉及多個復雜的步驟，包括獎勵模型的開發、在策略推理樹的構建，以及將這些元素整合為連貫的長思維過程。整個研究過程采用了叠代和並列的方法。進行了多次嘗試，不斷調整和完善技術和方法。評估過程包括定量和定性分析，結合人工檢查和專門的分析工具，以確保研究的準確性和有效性。

團隊強調了探索過程的重要性，而不僅僅關註最終結果。這種重視科研探索過程的思路與團推提出的 "旅程學習" 範式相一致，強調了在復雜、動態環境中不斷試錯、糾錯的持續學習和適應的重要性。透過這個過程，不僅獲得了關於 o1 技術的深入理解，還開發了一套探索未知 AI 技術的系統方法。研究過程涉及決策分析、挑戰辨識以及創新解決方案的開發。最終，這項研究不僅僅是對 o1 技術的探索，更是對先進 AI 系統研究方法的一次實踐和驗證。透過分享研究過程，包括成功和失敗的經驗，旨在為 AI 研究社區提供有價值的見解，促進該領域的集體進步。

這個探索過程展示了開放、協作的 AI 研究在推動技術邊界方面的重要性，為未來更復雜的 AI 系統研究提供了有益的參考和指導。

具體地，團隊凝煉了復現 o1 過程中的幾個關鍵問題，並做了非常細致的探索分享：

Q1: o1 的思維鏈是什麽樣子的？

Q2: 長思維 (Long thought) 是如何工作的？

Q3: 如何構建長思維？

Q4: 如何構建獎勵模型？

Q5: 如何構建 on-policy 推理樹？

Q6: 如何從推理樹中推匯出長思維？

Q7: 如何評估我們的嘗試方法？

Q8: 如何訓練我們的模型？

Q9: 什麽是人類和 AI 協同標註的有效策略？

Q1: o1 的思維鏈是什麽樣子的？

表：基於對 OpenAI 提供的 o1 思維範例的詳細分析而建立的其中包括八個用於解決復雜任務的推理步驟或 "思維" 例項。仔細檢查了每個範例，提取了相關特征，如標記數、行數和關鍵詞。

觀測：

這些範例被分類為不同的問題類別，每種類別都與一個難度級別相關聯，從簡單的英語閱讀理解到復雜的多步驟數學推理任務。分析顯示了一個趨勢：隨著難度的增加， 響應長度（包括標記數和行數）往往成比例增長。這表明更高難度的問題涉及更多的推理步驟 。

除了標記數和行數外，團隊還進行了關鍵詞頻率分析，以辨識可能表征推理過程的重復出現的術語。除了常見的連線詞如 "and" 和 "so" 之外，分析還突出了幾個出現頻率較低但意義重大的關鍵詞。"consider"、"if" 和 "possible" 等關鍵詞經常出現， 通常表示推理過程中的分支，考慮多條路徑 。這些關鍵詞在復雜度更高的問題中出現頻率明顯更高，表明模型在這些情況下探索不同的解決方案路徑。 像 "wait" 和 "Alternatively" 這樣的關鍵詞是模型能夠進行反思和自我糾正的重要指標 。這表明模型具有更深入的理解和更細致的推理方法，因為模型不僅僅是遵循線性路徑，還能夠基於反思重新考慮和完善其方法。

為了理解 OpenAI 的 o1 的思維過程，團隊讓兩位博士水平學生仔細審查 OpenAI 的 o1 在解決數學問題時使用的推理過程。透過他們的詳細檢查，他們提取了反映 o1 如何處理和推理復雜方程式的底層思維鏈。這個結構化的思維圖在圖中有所展示。

圖：OpenAI o1 真實推理過程的結構化形式本質是一顆搜尋樹（數學題）

圖：OpenAI o1 真實推理過程的結構化形式本質是一顆搜尋樹（破譯題目）

經過這些探索，團隊確定需要構建的長思維數據應具有以下特征：

叠代式問題解決 ：模型首先定義函數，然後逐步探索相關運算式，將復雜方程式分解為更簡單的組成部份，反映了一種結構化和有條理的方法。

關鍵思維指標 ：使用 "Therefore" 表示結論，"Alternatively" 探索不同路徑，"Wait" 表示反思，以及 "Let me compute" 過渡到計算，突出了模型的推理階段。

遞迴和反思方法 ：模型經常重新評估和驗證中間結果，使用遞迴結構確保一致性，這在嚴謹的數學推理中很典型。

假設探索 ：模型測試不同的假設，隨著獲得更多資訊而調整其方法，展示了推理過程中的靈活性

結論和驗證 ：最後，模型解方程式並驗證結果，強調在完成之前驗證結論的重要性。

Q2: 長思維 (Long thought) 是如何工作的？

這是團隊認為重要的問題。然而，在當前的研究階段，該團隊僅僅提出了猜想。團隊認為還沒有足夠的經驗證據來驗證它們的準確性，這也是未來需要重點展開的工作。

o1 長思維方法的顯著成功可以歸因於在上述中介紹的旅程學習 (Journey Learning) 。與傳統的捷徑學習 (Shortcut Learning) 不同，旅程學習允許模型探索 整個決策軌跡 ，模仿人類的問題解決過程。這種全面的探索使 o1 能夠考慮 多種解決方案路徑，從錯誤中學習，並理解完整的問題解決過程 。透過經歷正確和錯誤的路徑，模型發展出強大的錯誤處理和自我糾正能力，增強了其適應新挑戰的能力。 這種方法培養了對問題領域更深入的理解，不僅僅是知道正確答案，而是理解為什麽以及如何得出答案 。旅程學習過程密切模擬人類的認知過程，包含試錯、反思和調整。這大大增加了模型輸出內容的可解釋性，因為 o1 可以提供詳細的解決步驟並解釋其推理過程，包括如何從錯誤中恢復。因此，基於旅程學習的 o1 長思維過程不僅僅是計算時間的擴充套件，還代表了一種徹底的、人類般的推理探索。這種方法使 o1 能夠處理更復雜的問題，提供更可靠和可解釋的答案，並在面對新挑戰時表現出更大的適應力，從而解釋了它在各種任務中的卓越表現。

Q3: 如何構建長思維？

嘗試 1：基於 LLM 和獎勵的樹搜尋 根據在 Q1 中對長思維的觀察，其最顯著的特征是在推理產生錯誤時或遇到冗余的推理步驟時嘗試反思和回溯。這類似於在推理樹上搜尋問題的解決方案，在錯誤節點處回溯，直到找到正確的解決路徑。為實作這一點，需要構建一棵推理樹，其中根節點代表問題，其他每個節點代表一個推理步驟。從根到任何節點的路徑代表從問題到該結論的推理過程。此外，回溯和反思必須基於錯誤的推理步驟，這需要一個更細粒度的獎勵模型（即過程級）來指示樹中每個節點的正確性。透過在具有過程級獎勵的推理樹上執行搜尋演算法，可以將錯誤步驟整合到思維鏈中，從而構建包含回溯和反思等行為的長思維。

嘗試 2：提議 - 批評迴圈 嘗試 1 透過基於預定義規則在樹上執行搜尋來構建長思維，但這限制了回溯和反思等行為的自由度。因此，團隊嘗試讓模型選擇自己當前的行為。團隊構建了一個提議 - 批評迴圈，其中為模型預定義了一些可能的行為（即繼續、回溯、反思、終止），並讓模型自身選擇行為來構建推理樹。如果樹沒有達到最終答案，可以將這個負面訊號告知模型，引導它反思和糾正其方法。

嘗試 3：多智能體方法 基於推理樹構建長思維存在幾個挑戰，包括存在許多冗余的無效節點，以及存在不依賴於反思行為的推理步驟，從而引起構建的長思維邏輯不一致。為解決這個問題，團隊設計了一個利用多智能體辯論的演算法，其中一個智能體充當策略模型，持續推理，而另一個智能體充當評論模型，指示策略模型是否應該繼續當前推理或執行回溯等行為。兩個智能體進行持續對話，在找到正確答案時自然構建長思維數據集。

嘗試 4：完整的人類思維過程註釋 當人類處理推理問題時，他們通常不會不斷地向前推理直到解決問題或失敗；相反，他們在無法繼續時會反思、回溯和重寫推理。這種行為與長思維的特征高度一致。因此，可以忠實且全面地記錄人類解決推理任務的過程，從而產生高質素的長思維。

Q4: 如何構建獎勵模型？

使用獎勵模型的第一步是定義粒度。團隊的目標不僅僅是關註最終結果，而是專門提高 LLMs 在反思、回溯和相關認知過程方面的能力。因此，團隊將評估粒度定義在步驟層面。具體來說，團隊使用來自 Abel 的微調數據，透過行號使解決方案變得清晰可辨。

實作獎勵模型的過程可以使用開源模型或是呼叫閉源模型的 api。團隊比較了不同獎勵模型在 PRM800K 和 MR-GSM8K 子集上的元評估表現。如下表格展示了結果，其中，o1-mini 在不同數據集上表現最佳，證明其是一個良好的獎勵模型。

Q5: 如何構建 on-policy 推理樹？

構建推理樹需要一個能夠執行單步推理的策略模型。給定一個問題及其相應的最終答案，策略模型從問題作為根節點開始，不斷向樹中添加新節點。它首先生成 w 個可能的第一步推理步驟作為根節點的子節點。然後，它叠代地進行前向推理，為每個當前節點（如第一步推理）生成 w 個可能的後續推理步驟作為該節點的子節點。這個過程重復進行，直到達到預設的最大深度或所有葉節點達到最終答案。

策略模型和步驟分段 構建推理樹需要清晰定義推理步驟。為此，團隊采用 Abel 提出的數據格式，將數學問題解決方案轉化為具有清晰步驟的形式，將答案分成多行，每行以行號開始，並包含該行內的推理。因此，使用 Abel 數據集對 DeepSeekMath-7B-Base 進行微調，得到 Abel-DSMath，作為策略模型。在這種特定格式數據上微調的模型可以方便地控制單個推理步驟的生成。

獎勵模型和剪枝 上述提出的樹生成演算法計算成本高昂。當設定後續推理步驟數目為 3 和深度為 10 時，最後一次叠代需要生成 3 的 10 次方個推理步驟。因此，使用獎勵模型來剪除錯誤的推理步驟，提高操作效率。具體來說，團隊采用束搜尋，在每次叠代中只選擇少量候選項保留到下一輪。根據使用的獎勵模型，剪枝實作的細節有所不同。團隊嘗試了兩個獎勵模型：math-shepherd 和 o1-mini。

Math-shepherd 為每個步驟提供一個介於 0 和 1 之間的實數，表示當前步驟正確的概率。在樹生成的每次叠代中，對所有推理步驟進行評分，並選擇得分最高的前 K 個進入下一次叠代。這將總生成次數進行剪枝。然而，math-shepherd 在評估困難問題的推理步驟時存在困難，需要一個更強大的獎勵模型，能夠為每個步驟提供高準確度的正確性指示。因此，最終使用 o1-mini 為每個步驟提供獎勵，直接指示每個推理步驟是否正確。此時，在樹生成的每次叠代中，利用來自 o1-mini 的獎勵，選擇最多 K 個正確的推理步驟進入下一次叠代。

Q6: 如何從推理樹中推匯出長思維？

一旦構建了推理樹，目標就變為探索如何從推理樹轉換為包含試錯過程的長思維。在該團隊的框架中，推理樹的每個節點都被獎勵模型標註，指示該步驟是否正確或錯誤。具體的合成步驟如下：

從推理樹構建捷徑 首先從推理樹構建捷徑，其中只包括正確答案和有效的中間步驟。從代表問題的根節點開始，找出通向正確答案葉節點的路徑。如果有多個正確答案節點，則建立多條正確路徑。

遍歷推理樹 為了得到長思維，采用深度優先搜尋（DFS）遍歷樹。這種遍歷按 DFS 順序構建路徑，記錄從根問題節點到正確答案葉節點的每一步，同時包括任何被標記為錯誤的節點的推理。DFS 的挑戰在於它探索了龐大的搜尋空間，產生了大量可能無法得到正確解決方案的試錯路徑。為了簡化這一初始探索，團隊還引入了具體的約束來緩解由於遍歷路徑過長導致的合成數據的復雜性。首先，根據節點是否位於正確路徑（即捷徑）上來標記樹中的所有節點。遍歷遵循以下規則：

正確路徑上的節點：DFS 遇到正確路徑上的節點時，它可能會探索導致錯誤結果的子節點，從而模擬試錯的過程。一旦這個節點到達葉節點並被確定為錯誤，演算法就會回溯並切換到正確的路徑繼續遍歷。

不在正確路徑上的節點：隨機選擇一個子節點進行探索，並不產生試錯的分支。

為進一步簡化過程，套用了一個額外的約束：正確路徑上的每個節點最多允許 K 次試錯 —— 一次在錯誤路徑上的試錯和一次在正確路徑上的探索。這些約束確保 DFS 遍歷專註有意義的試錯探索，同時避免過度探索錯誤路徑。在未來的實驗中，計劃移除或調整這些約束，以研究試錯路徑長度與最終模型效能之間的關系。

從遍歷路徑得到長思維 生成遍歷路徑並將推理附加到錯誤節點後，透過連線路徑中的所有步驟來構建長思維，其中還包含了每個錯誤步驟的推理。然而，初步實驗表明，使用這個形式的長思維數據來訓練模型的效能不佳。為解決這個問題，團隊嘗試使用 GPT-4o 來修改草稿。GPT-4o 在保留所有推理步驟（包括錯誤步驟、反思和修正）的同時，增強了思維過程的連貫性和流暢性。這種方法確保最終的長思維不僅準確，而且自然流暢，模擬了包含正確和錯誤步驟的人類問題解決過程。

Q7: 如何評估我們的嘗試方法？

圖：透過可互動的數據分析平台視覺化構建的搜尋樹

除了使用特定評估指標在基準測試上測試準確率分數外，人工審查實際案例（輸入輸出）是評估數據和模型的關鍵步驟。因此，為了提供一種更直觀的方式來評估模型在特定問題上的表現，團隊構建了一個視覺化數據分析平台。

具體來說，視覺化平台包括合成樹及其對應長思維的視覺化，以及訓練模型的輸出。此外，在視覺化結果時，支持詳細的條件過濾，例如過濾正確或錯誤回答的問題，或輸出是否包含表示反思或猶豫的關鍵詞（如 "wait"）。另外，視覺化平台支持不同叠代輪次的合成數據和模型輸出之間的比較，這使得團隊可以非常直觀地驗證新一輪的數據或模型是否有效。

Q8: 如何訓練我們的模型？

團隊實驗使用預訓練語言模型 deepseek-math-7b-base（更多其他模型已經在等待列表中）。訓練過程分為兩個主要階段：監督微調（SFT）和直接偏好學習（DPO）。

第一階段：監督微調（SFT）:

SFT 過程包括兩個階段：

初始階段 ：在這個初始階段，團隊專註於使用只包含正確中間步驟和最終正確答案的響應來微調模型。在 Abel 數據集和 PRM800K 數據集上微調 Deepseek-math-7b-base。對於 PRM800K 中的每個問題，使用單個正確的逐步解決方案，丟棄不導向最終答案的回復。在這個階段，對每個數據集進行一個 epoch 的微調，主要目的是讓模型熟悉所需的響應格式。

旅程學習 ：在第二階段，使用構建的長思維（包含 327 個範例）進一步微調初始階段的 SFT 模型。這個階段旨在增強模型發現錯誤、自我反思、自我修正和執行回溯的能力。透過在合成的包含試錯、反思的長思維數據上訓練，模型對更長推理鏈中涉及的復雜性有更深入的理解。為了比較，團隊還在從同一推理樹生成的相應捷徑上 (Shortcut Learning) 微調模型（同樣是 327 個），從而更直觀的比較旅程學習相比捷徑學習所帶來的增益。

第二階段：直接偏好學習（DPO）

在這個階段，使用核采樣（top_p = 0.95 和溫度 T = 0.7）從 MATH Train 數據集為每個問題生成 20 個回復。這 20 個回復根據最終答案的正確性分類為正面和負面響應。從中，隨機選擇 5 個正面響應和 5 個負面響應來建立 5 對偏好對。然後，使用這些偏好對和 DPO 損失來訓練模型，使其能夠從正確和錯誤答案的比較中學習。

Q9: 什麽是人類和 AI 協同標註的有效策略？

團隊開發了一種人類和 AI 協作的數據標註流程，用於生成基於 MATH 數據集的高質素、長文本推理數據。透過這個流程，我們將短短幾行人類標註的解題方案擴充套件為包含數千個 token 的、符合「旅程學習」範式的詳細推理過程。在構建流程的過程中，我們發現了下面幾種有效的標註技巧：

完整的思維過程 ：標註者不必詳細記錄每一個想到的詞語，但必須記錄每一個嘗試、反思、聯想和修正的過程。這些發散的認知路徑在日常思考中可能並未被表達成文字，甚至沒有被顯式認知。然而，捕捉這些思維轉變以及背後的原因是至關重要的。這種規劃和理解認知轉換的能力是大語言模型從我們的數據中必須學習的核心技能。

補充解釋常識 ：人類在用語中經常省略一些可以從上下文中推斷的資訊，比如對前述公式的參照，或是對廣為人知的理論的套用。然而，當大語言模型嘗試解讀人類標註時，這種省略可能導致幻覺。因此，高質素的數據必須包括對常識性知識的明確解釋，以防止大模型的誤解。

遵循以上兩個關鍵要素，人類專家即可完成數據標註，這些數據精簡但準確，非常利於大模型做進一步增強。下一階段，透過設計復雜的提示詞，我們透過大語言模型實作了數據擴充套件和增強。我們的提示詞包含以下關鍵點：

數據顆粒度的增強 ：提示詞強調將問題解決過程分解為更細小的步驟。透過將過程拆解成細粒度且易於理解的步驟塊，大語言模型能更好地掌握和內化每個概念，確保在每個階段都有深入的理解。

逐步推理 ：提示詞控制大語言模型需頻繁暫停，反思已知資訊或提出下一步的操作。這種停頓模仿了學生在思考問題時的自然過程，幫助他們保持參與感和對推理過程的連線感，而不僅僅是被動地遵循指令。

探索者視角 ：與直接呈現答案不同，大語言模型被鼓勵以探索的語氣進行推理，即假設自己是第一次思考這個問題。這種方式可以激發某種程度的「好奇心」，鼓勵模型批判性思考，使他們感覺自己是學習過程的一部份，而不是簡單地接收資訊。

為什麽科學進展報告很重要？

研究團隊表示：傳統發論文方無法適應新的科研範式，人工智能技術的快速發展開創了一個新的研究範式時代，其特點是 長期的、基於團隊的努力 ，通常持續六個月或更長時間。這種轉變雖然有利於突破性創新，但無意中給科學過程帶來了新的挑戰。長期團隊合作的內向性經常 導致向更廣泛科學界資訊流動的減少 。此外，這些專案的長期性質往往導致 研究人員滿足感的延遲，可能在整個研究過程中培養焦慮和動力減弱 。另外，大規模團隊專案的復雜性使得認可個人貢獻變得復雜，可能侵蝕傳統的學術激勵結構。團隊的進展報告方法 旨在透過增強透明度、促進即時反饋和認可，以及鼓勵對長期研究計劃的持續承諾來解決這些新出現的挑戰 。在這樣的背景下，團隊認為」Scientific Progress Report「（科研進展報告）是一種比現在」Scentific Paper「（科研論文）更有價值的科研產出和成果分享的組織形式。團隊科學探索過程的細致記錄，尤其在 AI 能力快速發展的背景下，具有深遠意義。透過全面記錄探索過程，包括成功和失敗，團隊正在培育一個獨特而寶貴的數據集。這份全面的記錄對於訓練真正理解科學方法的 AI 模型至關重要。o1 的成功強調了 AI 系統不僅要學習結果，還要學習完整的科學探索過程，包括試錯的重要性。透過科研進展報告，不僅可以捕捉技術細節，還包括決策理由、靈感來源和思維過程。這些 "人類因素" 對於訓練能夠進行真實科學發現的 AI 模型至關重要。

下一步探索

團隊根據的研究時間線和取得的進展，確定了幾個未來探索和發展的關鍵方向：

擴充套件長思維的合成 ：基於在長思維合成方面的成功叠代，團隊計劃進行第三輪的數據整合。這將涉及處理更復雜和多樣的思維模式，可能揭示 o1 能力的新維度。

長思維擴充套件定律實驗 ：這個研究流程旨在理解模型的效能和能力如何隨著數據、模型大小和計算資源的增加而擴充套件。對這個規律的掌握對最佳化方法和挖掘超級 AI 系統背後的基本原理至關重要。

細粒度、以思考為中心的評估 ：計劃開發和實施更復雜的評估方法，專註於細粒度、以思考為中心的評估。這種方法將讓我們更準確地衡量生成的長思維的質素和連貫性，為模型推理能力提供更深入的洞察。

人機協作以提高思考質素 ：未來計劃的一個關鍵部份是探索和增強人機協作，以產生更貼近人類思維的高質素思考數據。這涉及開發利用人類智能和 AI 能力的共同優勢，促進 AI 能力的突破。

持續改進獎勵和批評模型 ：基於過程級獎勵模型和評論模型設定，旨在進一步完善這些系統。這個持續的過程將涉及叠代改進，以更好地提供細粒度的監督訊號。

推理樹的合成最佳化 ：計劃探索從推理樹中推導和整合長思維更復雜、有效的方法。這將涉及探索更加先進高效的演算法來遍歷並利用復雜結構中的資訊。

擴充套件訓練方法 ：未來計劃包括進一步實驗和完善訓練流程。這包括增加預訓練階段、叠代訓練、強化學習、偏好學習和 DPO（直接偏好最佳化）。

持續的透明度和資源共享 ：將繼續分享在整個科研旅程中開發的資源、觀察到的結論和工具。這種持續的做法旨在促進更廣泛的 AI 研究社區的協作和加速進展。

探索多代理方法 ：基於在多代理系統方面的初步嘗試，計劃深入研究這一領域，發現建模復雜推理和決策過程潛在的新方法。

完善分析工具 ：旨在進一步開發和增強分析工具。這些工具對解釋模型輸出、跟蹤進展和指導未來研究方向至關重要。

透過追求這些途徑，不僅推進我們對 o1 能力的理解和復制，還要推動 AI 研究方法的邊界。

核桃計劃

團隊借本專案正式引出「核桃計劃」 (https://gair-nlp.github.io/walnut-plan)，團隊成員表示：「對 o1 技術路線的探索及復現工作，僅僅是我們核桃計劃的一部份。核桃計劃旨在成為人工智能復雜推理和深度思考能力研究的開放先鋒，致力於推動 AI 從簡單的資訊處理工具演變為具備 "牛頓" 和 "愛因斯坦" 級別深度思考能力的智能系統。我們將著眼於更長遠的研究，最終的偉大願景是讓未來可以呈現 AI 驅動的科研範式，即 AI 完全具備參與人類科研的水準，從而更好地服務人類、改變世界。」