8 名谷歌員工發明了現代人工智能，這是那篇論文的內幕故事

2024-03-29科技

編者按：前人種樹，後人摘果。在科技圈，科技巨頭做出創新技術但成果卻被初創企業竊取的情況屢見不鮮。最近的例子之一便是谷歌與OpenAI。最近對科技圈產生最深遠影響的論文【Attention Is All You Need】就是谷歌的人發表的，但最終引爆市場的卻是OpenAI。那篇論文的所有8位元作者後來均離開了谷歌，本文介紹了這篇論文的誕生故事，並介紹了他們的最新動向。也許裏面最值得深思的，是如何打造創新的土壤。我們如何才能打造出那樣的土壤呢？文章來自編譯。

已成傳奇

2017 年春發表的科學論文【你所需要的只是註意力】（Attention Is All You Need）共有八位作者，他們都來自谷歌，不過當時其中一人已經離開了公司。當其中最資深的作者路亞·薩澤爾（NOAM SHAZEER）看到初稿時，他意外地發現自己的名字位列所有作者之首，這似乎表明他所做的貢獻最為顯著。他說：「我可不是這麽想的」。

作者名單如何排序從來都是件需要精心權衡的事情：誰應該獨享第一作者的美譽？誰又該不幸的被排在倒數第一？當每位參與者在真正意義上的團隊合作都做出了顯著貢獻時就更難權衡了。研究者們在完成論文的緊張過程中，最後采取了一種「顛覆性」的做法來打破常規的作者排名。他們給每個名字後面都標註了一個星號，並在註腳明確指出：「各人的貢獻均等」，「作者排序按隨機排列」。此舉無疑給學界慣例帶來挑戰。在截止日期前夕，他們將論文送出給一個聲譽卓著的人工智能會議——並進而在該領域掀起了一場革命。

在論文發表臨近七周年之際，【註意力就是你的全部所需】已成為傳奇。作者們的出發點是一項日趨成熟且不斷進步的技術——一種被稱為神經網絡的人工智能。他們把它發展成了一種全新的系統：這個系統是如此的強大，以至於它的輸出仿佛來源自非人類的智能。這種被稱為 Transformer 的體系結構正是 ChatGPT、Dall-E 以及 Midjourney 等引人註目的 AI 產品背後的核心技術。Shazeer 如今調侃道，如果他當初知道這篇論文會那麽出名的話，他「可能會對作者排序更加介意」。但現在，所有的八名簽署作者都已經小有名氣。利昂·瓊斯（Llion Jones）的名字（當然是隨機的）恰好排在第五位，他說：「就因為我的名字出現在了一篇論文上，有人就找我合影了！」。

謝菲·辛頓 (Geoffrey Hinton)雖不是論文的作者之一，但也許確實全球最卓越的人工智能科學家。他說：「要不是因為有了transformers，我覺得我們走不到今天這一步。」他指的是隨著OpenAI等公司開發出能與人類產出相媲美，甚至在某些情況下超越人類產出的系統，我們已經進入到一個地動山移的時代。

現如今，所有這八位作者都已離開谷歌。跟成千上萬人一樣，他們目前正以各種方式參與到由他們在 2017 年所創造的系統推動的工作當中。我采訪了這八位 Transformer 的發明者，希望能揭示一項顛覆性成果——一次凝聚人類智慧的努力，創造出一台有可能最終主導話語權的先進機器——的內在結構。

誕生故事

Transformers的故事要從這八個名字的第四個開始：雅各布·烏斯克爾特（Jakob Uszkoreit）。

雅各布·烏斯克爾特是著名的計算語言學家漢斯·烏斯克爾特（Hans Uszkoreit）的兒子。 20 世紀 60 年代末，還是高中生的漢斯因抗議蘇聯入侵捷克斯洛伐克而在自己的祖國東德被監禁了 15 個月。獲釋後，他逃往西德，並開始在柏林學習電腦和語言學。雅各布出生那年，他去了美國，到加州門洛公園的一家研究機構 SRI 的人工智能實驗室工作。後來他們家又重新回到德國，雅各布也在那裏上了大學。他起初並沒計劃要專研語言學，但當他開始研究生學業時，他拿到了到谷歌山景城總部的實習機會，並加入了公司的轉譯小組，看來他最終還是投入到家族事業之中了。他後來放棄了讀博的計劃，2012年，他決定加入谷歌的一支團隊。當時該團隊正在打造一個不需要將使用者重新導向到其他網站，可以直接在搜尋界面回答使用者問題的系統。那時候蘋果剛剛推出了 Siri，一個在日常交談當中提供即時答案的虛擬助手，這讓谷歌的管理層感受到巨大的競爭壓力：因為Siri 有可能會沖擊到他們的搜尋流量。因此，他們開始更加關註雅各布·烏斯克爾特領頭的這個新團隊。

烏斯克爾特表示：「那其實是場不必要的恐慌，」事實上 Siri 從未對谷歌構成過實質性的威脅。但他對此還是很高興，因為這是可以深入鉆研人機對話系統的機會。在當時，在學術上曾被認為一潭死水的迴圈神經網絡（recurrent neural networks），其表現突然超越了其他的人工智能工程方法，這種神經網絡由多層組成，資訊可以在在這些層之間傳遞和反復傳遞，從而能辨識出最佳的回應。神經網絡在影像辨識等多個領域取得了巨大進展，人工智能因此迎來了全面復興。谷歌開始瘋狂發動自己的員工隊伍，要求他們采用這些新技術。他們希望能開發出能生成類似人類響應的系統，比如可在郵件自動補全句子或做出相對簡單的客服聊天機器人。

但這一領域後來遇到了難題。迴圈神經網絡在處理長文本時表現不佳。比方說，要想理解「Joe 是一名棒球運動員，在享用了一頓豐盛的早餐之後，他在棒球場上打出兩記安打。」這句話裏面的「兩記安打」，語言模型就必須記住前面提到的棒球。換言之，模型必須維持註意力。對此業界公認的解決方案叫做「長短時記憶」（LSTM），這種革新技術讓語言模型能夠處理更長、更復雜的文本序列。但電腦還是嚴格按順序來處理這些序列——一個一個單詞地去處理，乏味至極——這種做法會錯過後續可能出現的上下文線索。烏斯克爾特表示：「我們采取的做法基本上只是臨時應急措施，並沒有找到可以真正規模化的處理手段。」

大概在 2014 年左右，他開始醞釀一種新的做法，他稱之為自註意力機制（self-attention）。這種網絡可以參照段落文字的任何其他部份，借此來轉譯一個詞。這其他部份的內容可以明確某個詞想要表達的意思，從而幫助系統生成準確的轉譯。他說：「其實這種機制已經考慮到所有因素，提供了一種能同時高效地審視眾多輸入資訊，並以相當有選擇性的方式提取資訊的方法」。雖然人工智能科學家們都很小心，避免將神經網絡的隱喻與生物大腦的實際工作方式混為一談，但烏斯克爾特依舊認為自註意力機制在一定程度上與人類處理語言的方式有相似之處。

烏斯克爾特相信，自註意力模型有望比迴圈神經網絡快得多、也更有效。其處理資訊的方式與強大的並列處理芯片完全匹配，後者已經被大規模生產出來，用來支撐機器學習熱潮。與線性處理方法（按順序檢視每個詞）不同，它采用了一種並列的處理方法（同時檢視一批詞）。烏斯克爾特在想，如果處理得當的話，或許只用自註意力模型就能收獲更出色的結果。

並不是所有人都認同這個想法能震撼世界，其中也包括烏斯克爾特的父親在內。雅各布在谷歌供職期間，漢斯·烏斯克爾特獲得了兩項谷歌學術研究獎。雅各布·烏斯克爾特表示：「大家都對此感到吃驚，因為它拋棄了所有現有的神經網絡架構。」跟迴圈神經網絡說再見？簡直是異端！「從我跟父親吃飯時的對話情況來看，我們的觀點並不完全一致。」

烏斯克爾特說服了幾位同事對自註意力模型進行實驗。他們的工作成果展現了希望，2016 年還發表了一篇論文。烏斯克爾特想推動他們進一步研究——因為該團隊只用了非常少量的文本段落進行試驗——但沒有一位合作者對此感興趣。他們就像是只想小賭一把就的賭客，拿得到一點獎金就離場了。烏斯克爾特說「這東西確實管用。那篇文章的合作者對於將自己的研究成果運用到谷歌的不同地方，包括搜尋引擎，最終還有廣告系統等感到十分興奮。從很多方面來看這都是一個了不起的成就，但我並不想就此打住。」

烏斯克爾特相信自註意力能勝任更大的任務。在谷歌園區北邊卓思頓路 1945 號樓（用地址命名）裏，他會向任何願意（以及不願意）傾聽的人講解他的設想，並在白板上勾勒出他的願景。

2016年的某一天，在谷歌的一個咖啡店裏，烏斯克爾特正在與一名來自烏克蘭的科學家共進午餐，此人名叫伊利亞·波洛蘇欣（Illia Polosukhin），已經在谷歌工作了近三年。波洛蘇欣被分配到的團隊負責解答在搜尋框裏直接提出來的問題。但他們的成果並不如預期。波洛蘇欣說：「要想在 Google.com 上提供答案，你得有一個成本低效果好的方案。因為必須在幾毫秒內做出響應。」當波洛蘇欣對此表達不滿時，烏斯克爾特毫不猶豫地給出了自己的解決方案。波洛蘇欣回憶道：「他提議說，為什麽不試試自註意力機制呢？」

波洛蘇欣有時候會跟另一位同事合作。艾殊什·瓦斯瓦尼（Ashish Vaswani）在印度出生，在中東長大，曾就讀南加州大學（USC），並在該校頂級的機器轉譯小組獲得了博士學位。然後，他來到山景城，加入了谷歌——具體來說是去到谷歌新成立的Google Brain部門。在他眼裏，Google Brain是一個十分激進的組織，堅信「神經網絡將推動人類認知的加深」。但他一直想找個值得投入進去的大專案。他的團隊在 1965 號樓工作，這棟建築正好位於波洛蘇欣的語言團隊所在的1945號樓旁邊，然後他聽說了自註意力機制的構想。這會是他想要的那種專案嗎？他同意參與進來。

三位研究人員共同起草了一份設計文件，名字叫做「Transformers：叠代自我註意力機制記各種任務的處理」。烏斯克爾特說，他們從「零日」（day zero）中選中了「transformers」這個名字。其想法是，這種機制可以變換所接收的資訊，讓系統能夠析取出盡可能多的理解，或者至少給人以那種錯覺。再加上烏斯克爾特對小時候玩孩之寶動作人偶的美好時光仍歷歷在目：「我很小的時候曾經有過兩個變形金剛小玩具」。這份文件檔案甚至還用六個變形金剛在群山之間互射激光的卡通圖片作為結束。

論文開頭的那句話也有點招搖：「我們太棒了。」

2017年初，波洛蘇欣離開谷歌自主創業。此時，新的合作者也開始陸續加入該專案。印度工程師尼基·帕爾瑪（Niki Parmar）曾在印度為一家美國軟件公司工作，之後又移居到美國。2015年她在南加州大學（USC）獲得碩士學位後，各大科技巨頭均向她伸出了橄欖枝。她最後選擇了谷歌。開始工作後，她開始與烏斯克爾特合作，透過研發模型變體來增強谷歌搜尋功能。

另一位新成員是利昂·瓊斯（Llion Jones）。他在威爾斯出生長大，熱愛電腦，「因為這東西不一般。」在伯明翰大學，他修了一門人工智能課程，對用歷史趣事呈現的神經網絡產生了興趣。2009年7月，他拿到了碩士學位，但由於經濟不景氣難以找到工作，曾靠失業救濟維持了幾個月。之後他到一家本地公司找到了一份工作，然後用「孤註一擲」的心態去投了谷歌。他最終得到了這份工作，進入到Google Research，而他的經理正是波洛蘇欣。某一天，瓊斯從同事Mat Kelcey那裏聽說了自註意力的概念，之後決定加入transformer團隊。（後來，瓊斯碰到Kelcey時提到了transformer專案，但 Kelcey 對此並不看好。現如今的Kelcey是這麽說的：「我跟他說，‘我不確定這能不能行得通’，這基本上算是我這輩子錯得最離譜的預測了」。）

Transformer專案吸引了同樣致力於改進大語言模型的其它Google Brain團隊研究人員。這第三波人包括波蘭出生的理論電腦科學家烏卡殊·凱撒（Łukasz Kaiser）以及他的實習生艾丹·高美斯（Aidan Gomez）。高美斯在加拿大安大略的一個小農莊長大，每年春天，他家都會采集楓木汁制作成糖漿。在多倫多大學上大三的時候，他就「深陷」在人工智能的魅力而無法自拔，並且加入了到一個機器學習小組——謝菲·辛頓（Geoffrey Hinton）的實驗室。他開始聯系谷歌那些寫過有趣論文的人，提出對他們的研究進行擴充套件的想法。凱撒上鉤了，並向他發出來實習的邀約。直到數月之後，高美斯才發現這些實習機會本是給博士生準備的，而不是像他這樣的本科生。

凱撒和高美斯很快就意識到，對於他們正在處理的問題來說，自註意力機制似乎是一個有前途且更為徹底的解決方案。高美斯說：「我們進行了認真商討，確定要要不要合並這兩個專案」。答案是肯定的。

Transformer團隊開始著手構建一個自註意力模型，用於將文本從一種語言轉譯成另一種。他們利用了BLEU 基準測試來衡量該模型的表現。BLEU會透過對比機器輸出與人類轉譯者的工作來測試模型。他們的新模型從一開始就表現良好。烏斯克爾特表示：「我們從沒有概念證明走到至少有一個能與當時最好的 LSTM 方案匹敵的東西」。不過，跟長短期記憶（LSTM）相比，「它並沒有更好表現。」

直至 2017 年的某一天，諾姆·薩澤爾（Noam Shazeer）偶然聽說了他們的研究專案之後，他們的瓶頸才被打破。薩澤爾是一名經驗豐富的工程師，早在 2000 年就加入了谷歌，同時也是谷歌的一位傳奇人物，早年因在廣告系統的工作而獲得了廣泛認同。薩澤爾研究深度學習已有五年時間，最近對大語言模型產生了濃厚興趣。但現有的模型離流暢對話還差得很遠，他認為那種對話是可以實作的。

根據薩澤爾的回憶，當時他正在 1965 號樓的走廊行走，經過凱撒的工作區時，他聽到裏面正討論得熱火朝天。他記得艾殊談到了用自註意力機制的想法，而妮基則對此非常興奮。「我在想，哇，這似乎是個很棒的想法。看起來似乎是一群有趣的聰明人在做一件很有前途的事。」薩澤爾認為現有的迴圈神經網絡「讓人很不爽」，於是他想：「為何不換掉它們呢！」

薩澤爾的加盟至關重要。烏斯克爾特表示：「這些理論性或直觀性的機制，比如自註意力機制，一直都要靠非常細致的實作，甚至有時候只有少數經驗豐富的‘魔法師’才能讓它呈現出一絲生機」。薩澤爾馬上開始施展他的魔法。Transformer團隊的程式碼他決定自己寫一版。他說：「我接受了他們的基本想法，然後自己實作了」。偶爾他會找凱撒尋求解答，但大部份時候他「都是自己折騰一番之後就‘搞定了。’」透過其他團隊成員口中的「魔法」、「煉金術」和「花裏胡哨」的操作之後，他將這套系統提升到了一個新的水平。

高美斯說：「這拉開沖刺的序幕」。人人都鬥誌昂揚，希望在即將到來的截止日期之前搞定——5月19日是論文送出的最後期限，如獲透過，這些論文將在人工智能界一年一度的最大盛會（也就是12月舉辦的神經資訊處理系統大會，Neural Information Processing Systems）上發表。矽谷所謂的人工智能寒冬已漸漸逝去，川春天正慢慢走來，實驗的步伐也隨之加快。他們測試了兩種transformers模型：一個是經過12小時訓練得來的，另一個更加強大的版本被命名為 Big，經過了三天半的訓練，並被開始用來執行英語譯德語的任務。

這個基礎模型超越了所有對手——而 Big 拿到的BLEU評測分數碾壓了過去的記錄，同時計算效率也更高。帕馬說：「我們的用時比別人短。而這還僅僅是開始，因為數據還在不斷提高。」當烏斯克爾特聽到這個好訊息時，他從自己山地探險車裏拿出了一瓶陳年香檳來慶祝。

截止日期前的最後兩周，大家都忙到發瘋。盡管有些團隊成員的官方工位仍擺放在 1945 號樓，但實際上他們大都在 1965 號樓辦公，因為那裏的意式咖啡機更好。高美斯說：「大家幾乎都沒怎麽睡覺」。作為實習生，他幾乎一直在緊張地進行著偵錯，同時還要為論文制作視覺化內容和圖表。在這樣的專案裏，做剔除實驗是司空見慣的事情——也就是拿走一部份，看看剩下的是不是足以完成任務。

高美斯說：「技巧或模組的各種可能組合我們都會嘗試，去找出哪些有用，哪些沒用。撤掉這個，然後用那個來替換。為什麽模型的機制是如此的有違直覺？原來是因為我們遮蓋（masking）得不對。現在能用了嗎？好的，那就繼續下一個。現在我們所謂的‘Transformer’的所有要素，都是這種高速叠代、不斷試錯的結果。在薩澤爾所實作版本的支持下，這些剔除賦予了Transformer‘極簡主義’的特色，就像瓊斯所說那樣，‘諾姆就像一位魔法師’。」

瓦斯瓦尼回憶道，他在團隊寫論文的那個晚上，躺在辦公室的沙發上，凝視著隔開沙發與房間其他部份的窗簾，突然被窗簾布料上的圖案所吸引，那些圖案在他看來像極了突觸和神經元。高美斯也在場, 瓦斯瓦尼告訴他，他們正在做的事情遠不止機器轉譯。他說："最終，我們需要像人腦一樣，將語音、音訊、視覺等各種模式統一在一個架構之下。我有一種十分強烈的感覺，那就是我們正在接觸到某種更為普遍的東西。"

不過，在谷歌的高層看來，他們的工作只不過是又一個有趣的人工智能專案罷了。我曾問過幾位參與Transformer專案的人，他們的上司是不是經常讓他們報告專案進展。實際上這種情況並不多。但是烏斯克爾特說：「我們都知道，這東西有可能會變成一件大事。這也促使我們非常關註論文末尾對未來工作的一段評論。」

那句話預示了接下來可能會發生的事情——transformer模型在基本上一切形式的人類表達上面的套用。他們寫道：「我們對以註意力為基礎的模型之未來感到興奮。我們計劃將transformer擴充套件到輸入與輸出模態不是文本的問題」，還要研究「影像、音訊和影片」。

還有幾天就到截止日期的一個晚上，烏斯克爾特意識到自己的論文得取個標題。瓊斯指出，該團隊已經徹底摒棄公認的最佳實踐，其中最突出的是 LSTM，而轉向這一項技術：註意力機制。瓊斯回憶道，披頭四樂隊有首歌叫做「你所需要的只是愛」（ All You Need Is Love）。為什麽不把這篇論文叫做「你所需要的只是註意力」（ Attention Is All You Need）呢？

披頭四？

瓊斯說：「我是英國人。其實我想到這個只用了五秒鐘。我沒想到他們會采納。」

在截止日期到達之前他們都在不斷收集實驗結果。帕爾瑪說：「我們大概是在送出論文的五分鐘前才弄到，英法互譯數據的。那時候我正坐在1965號樓的一個迷你廚房裏，把最後一批數碼弄進去。」不到兩分鐘之後，他們就把論文發出去了。

跟幾乎所有的科技公司一樣，谷歌很快就為這項工作申請了臨時專利。原因不是為了阻止其他人借鑒這些想法，而是出於防禦目的建立其專利組合。（該公司的理念是「如果科技有所進步，谷歌就會從中受益。」）

Transformer團隊收到的同行評審反響不一。帕爾瑪說：「有一個評價是積極的，有一個非常積極，還有一個評價是，‘還行吧’」。該論文被采用了，但只是被放在了晚間海報展示環節。

到 12 月開會時，這篇論文引起了轟動。 12 月 6 日，他們四小時的海報展示現場已經擠滿了想要了解更多資訊的科學家。作者們聊到聲音都嘶啞了。到了晚上10點30分會議結束時，現場仍然人頭攢動。烏斯克爾特說：「最後保安只能讓我們離開」。不過對他來說也許最滿意的時刻是電腦科學家塞普·霍赫韋特 (Sepp Hochreiter) 的現身，後者還贊揚了這項工作——鑒於霍赫韋特是長短時記憶（LSTM）的共同發明者，而transformer剛剛取代了LSTM在人工智能工具包的主流地位，這算是相當高的贊譽了。

墻外開花

Transformer 剛開始並沒有馬上征服世界，甚至連谷歌都沒有征服掉。凱撒回憶道，在論文發表的時候，薩澤爾曾建議公司高層徹底拋棄搜尋索引，而是用 Transformer 訓練一個龐大網絡——也就是基本上徹底改變谷歌組織資訊的方式。那時候，即便是凱撒也覺得這個想法很荒謬。而現在的共識是，這只是時間問題。

但有家初創公司的反應就要迅速許多。論文釋出後不久，OpenAI 的首席研究員伊爾亞·蘇茨克維（Ilya Sutskever，此前在谷歌任職時他就知道 Transformer 團隊了）建議由自己的科學家艾力·雷福德（Alec Radford）研究這個想法。其結果便是最早期的 GPT 產品。就像 OpenAI 的 CEO 山姆·阿爾特曼（Sam Altman）去年所說那樣：「Transformer 的論文發表時，我覺得谷歌沒人意識到它會產生什麽樣的深遠影響。」

但從內部看情況更為復雜。烏斯克爾特說：「我們很清楚 Transformer 能做出很神奇的事情。放在今天你可能會問，為什麽谷歌 2018年不能結束像 ChatGPT 這樣的產品？說實話， 2019 ，或許 2020 年我們就能有 GPT-3 或甚至 GPT-3.5這樣的產品。問題不在於他們有沒有意識到，而在於為什麽我們看到之後沒有采取行動。這個答案很復雜。」

許多技術評論人士指出，谷歌已經從原先的創新中心慢慢變成更註重利潤和效率的官僚機構。高美斯在接受【金融時報】采訪時指出，「他們沒有跟上現代化的腳步，沒有采納這項新技術。」不過，對一個領導行業並攫取巨額利潤數十年的企業巨頭來說，冒險采用全新技術確實是一大挑戰。谷歌的確在2018年開始往產品整合了 Transformer，首當其沖的是轉譯工具。同樣在那一年，它還推出了一個基於 Transformer 的新型語言模型BERT，並在第二年開始將其套用於搜尋服務。

但是，跟 OpenAI 的巨大飛躍與微軟將基於 Transformer 的系統大膽整合到其產品線相比，谷歌這些內部技術調整就顯得比較保守了。去年當我詢問行政總裁桑達爾·皮查伊（Sundar Pichai）為什麽率先推出像 ChatGPT 這樣的大語言模型的不是谷歌時，他認為在這種情況下，讓別人先走一步對谷歌是有好處的。他回答說：「對於這樣做會不會一樣成功還不是完全明朗。事實上，在人們看到它的工作原理之後，我們有能力做得更多。」

一個不可否認的事實是，這篇論文八位作者全都已離開谷歌。波洛蘇欣的公司 Near打造出一種市值約達 40 億美元的區塊鏈代幣。帕爾馬與瓦斯瓦尼在 2021 年開始搭檔創業，成立了 Adept （估值約 10 億美元），現在兩人又合夥創辦了第二家公司 Essential AI（已獲得 800 萬美元融資）。利昂·瓊斯在東京設立的 Sakana AI 的目前估值約為 2 億美元。薩澤爾於 2021 年 10 月離職，與人聯合創辦了 Character AI （估值為 50 億美元）。艾丹·高美斯是團隊裏面的實習生，2019 年，他回到多倫多與人共同創立了 Cohere（估值約 22 億美元）。雅各布·烏斯克爾特的生物科技公司 Inceptive估值為 3 億美元。除了 Near 以外，這些公司的安身立命之基都是 Transformer 技術。

凱撒是唯一沒有出來創業的人。他加入了 OpenAI，是一個叫做 Q* 的新技術的發明者之一，阿爾特曼去年曾表示，這項技術將「揭開無知的面紗，推動發現的前沿」。（當我在采訪中試圖就此問題詢問凱撒時，OpenAI 的公關幾乎是蹦起來讓他馬上閉嘴。）

谷歌會想念這些逃亡者嗎？當然會，也包括其他從谷歌出走創辦人工智能初創公司的那些人。（當我問皮查伊有關 Transformer 技術人員離職的問題時，他提醒我，被業界人士熱捧的 OpenAI也不是鐵板一塊，也有人出走。他表示：「人工智能這個領域瞬息萬變」。）但谷歌可以很自豪地宣告，他們已經打造出一個支持非常規思想探索的環境。帕爾馬表示：「從很多方面來看，谷歌一直都走在前列——他們投資到合適的腦袋，並創造出讓我們可以隨心所欲地探索和挑戰極限的環境。他們需要時間去接納新事物並不奇怪，畢竟谷歌所承擔的風險要大得多。」。

如果沒有那種環境的話，Transformer就不會出現。這些論文作者不僅都是谷歌的員工，而且還在同一間辦公室工作。走廊的偶遇與午餐時的閑聊有時候也會擦出思想的火花。這個團隊在文化上十分的多元化。其中有六位作者出生在美國以外的地方，而另外兩位，一個是兩個獲得綠卡，曾在加州短暫停留的德國人的孩子，還有一個是為了逃避迫害才來到美國的第一代美國人的後代。

烏斯克爾特在柏林的辦公室裏說道，創新就是打造合適的土壤。他說：「有對某件事情充滿激情，正好又處在人生合適時候的人。有了這些之後，如果在做的過程中能感受到樂趣，同時研究的又是合適的問題的話——再加上一點運氣——那麽奇跡就會出現。」

在烏斯克爾特跟他那位出名的老爸之間，也發生了一件不可思議的事。在無數次的餐桌辯論之後，兒子報告說，漢斯·烏斯克爾特現在也開始跟人共同創立了一家致力於開發大語言模型的公司了。當然了，用的也是 Transformer 技術。

譯者：boxi。