當前位置: 華文世界 > 科技

GPT-4o mini團隊揭秘:9人團華人面孔過半,清華北大同濟校友在列

2024-07-19科技
魚羊 一水 發自 凹非寺量子位 | 公眾號 QbitAI
「大模型尺寸之爭正在加速……倒退!」
OpenAI的GPT-4o mini一登場,又登上了大模型話題榜榜首。
並且這次話題焦點,是OpenAI不僅再樹新標桿,還一出手就把價效比卷爆了——直接把此前大受開發者好評的Gemini 1.5 Flash和Claude 3 Haiku給碾壓了。
這不,大神Karpathy火速發了篇小作文,做出開頭提到的這麽一句判斷,並進一步解釋:
我敢打賭,我們會看到能夠可靠「思考」的「小」模型,它們的參數量甚至可能只有GPT-2那麽大。
總之,開發者們的心情be like:
兩年內大模型成本直降99%,今天宜當開發者。
鑼鼓喧天的熱烈討論中,GPT-4o mini背後團隊也沒藏著掖著,都在𝕏上賣力宣傳了起來,並不吝對自家「殺手級團隊」的自豪。
也再度引來外界對OpenAI人才的關註。
我們扒了扒,發現其中依然不乏華人面孔。
半數Leader是華人
OpenAI照例在部落格末尾附上了團隊負責人名單。
此番9位負責人中,有5位都是華人面孔。
Kevin Lu,自述最近剛加入OpenAI。2021年畢業於加州大學柏克萊分校,就讀期間受柏克萊人工智慧研究所(BAIR)聯合主任Pieter Abbeel和谷歌DeepMind研究科學家Igor Mordatch指導,研究方向是強化學習和序列建模。
Shengjia Zhao,OpenAI研究科學家,方向為ChatGPT的訓練和對齊。他於2022年加入OpenAI,博士畢業於史丹佛大學電腦科學系,本科畢業於清華大學。
任泓宇,去年加入OpenAI擔任研究科學家,主要負責語言模型訓練。他也是GPT-4o的核心開發者、GPT-Next計畫組成員。
任泓宇本科畢業於北京大學,博士畢業於史丹佛大學。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft均有大量研究實習經歷。
Haitang Hu,去年9月加入OpenAI。他在2011年本科畢業於同濟大學電腦專業,後赴約翰·霍普金斯大學攻讀電腦碩士。
加入OpenAI前,他在Google工作了7年多。參與過TensorFlow以及大語言模型基礎設施的研發工作。
計畫經理Mianna Chen,也是GPT-4o的計畫經理。她於2023年12月加入OpenAI,之前在Google和DeepMind擔任產品經理。她畢業於普林斯頓大學,也是華頓商學院的MBA。
除了以上幾位華人面孔,GPT-4o mini團隊還有其他幾位核心成員。
Jacob Menick,2022年9月加入OpenAI擔任研究員,是GPT-4o mini的技術總負責人。
他還曾共同參與領導了GPT-4o預訓練工作,以及ChatGPT 瀏覽功能和機器學習工具使用的開發,在 2023 年 4 月和 5 月期間負責旗艦模型的後訓練工作。
在加入OpenAI前,他在DeepMind幹了6年多,參與了Gopher、RETRO和Flamingo等主要語言模型計畫,並為DeepMind多模態大模型鋪平了道路。
Eric Wallace,去年11月加入OpenAI擔任研究員,致力於大模型更可靠、安全和強大。
目前他還在加州大學柏克萊分校讀博,研究方向是增強機器學習的安全性/私密性/魯棒性。在加入OpenAI之前,他還在DeepMind和Meta實習過。
Nick Stathas,去年5月加入OpenAI,擁有高效能計算、機器學習、自動駕駛車輛和嵌入式系統等領域的經驗。他本碩均就讀於麻省理工學院,曾在MIT Driverless兼職首席工程師,負責無人駕駛汽車的自動駕駛軟體開發。
Felipe Petroski Such,GPT-4o mini團隊中最早加入(2020年)OpenAI的人,也是GPT-4o的核心貢獻者。
在加入OpenAI之前,他還在Uber擔任了3年多研究科學家。再往前,他就讀於羅切斯特理工學院,獲得了電腦工程雙學位,並在擔任研究助理期間,專註於深度學習研究,包括文件分類、分割和智慧字元辨識。
mini速度到底有多快
說完了背後的人,回到GPT-4o mini本身,總結一下這波就是主打一個又快又便宜,要在開發者面前找回場子。
那麽除了數據之外,最後,我們也不妨來實測一波它到底能有多快。
先直觀感受一波速度:
(滑屏速度快趕不上生成速度了)
還有網友把GPT-4o mini和另一位當紅炸子雞Claude 3.5 Sonnet放在Cursor上,來了場1v1。
另外,在面對長文本生成需求時,GPT-4o mini的16k輸出長度確實比Claude 3.5 Sonnet的8k輸出長度更好用。
比如做這道800字的高考作文題,相比於GPT-4o mini的庫庫輸出,Claude同學「總之」剛寫了半句就停下了,最後也沒寫完這篇作文。
正如網友所說,1.09元人民幣/百萬輸入tokens、4.36元人民幣/百萬輸出token的價格,基本上就是Claude 3 Haiku價格的一半,GPT-4o mini能有這表現,還要啥自由車。
畢竟,這可能一下子就讓某些產品告別虧錢走向盈利了(doge)。
不過,也有人不買賬:
一旦Gemini 2 Flash或者Claude 3.5 Haiku釋出,GPT-4o mini就沒看頭了。
還有網友幹脆陰陽怪氣了起來:
還是那個問題:GPT-5呢?
參考連結:[1]https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/[2]https://x.com/karpathy/status/1814038096218083497