從o1到Cursor,再到Canva和Notebooklm,大模型正在快速進入套用落地階段,所有創業者和開發者甚至研究者都要思考如何讓這個技術直面使用者,更快走入消費者市場。
在加州聖塔克拉拉剛剛舉辦的2024華源年會上,矽星人創始人駱軼航與BosonAI聯合創始人李沐,Luma AI首席科學家宋佳銘,以及加州大學柏克萊分校增強現實中心執行主任楊安進行了一場對話,討論了今天AI技術在進入消費者市場過程裏的挑戰,最新的模型發展趨勢,以及作為創業在創業一線感受到的冷熱變化。
以下為對話實錄:
駱軼航: 上台前我的一個朋友說,我是來負責拉低這場panel智商的。我非常同意,畢竟我自己沒有PhD或科學家背景,而是媒體和社區出身。但正是這些經歷,讓我能從不同角度提出一些問題。比如幫助大家將前沿的AI研究轉化為真正面向消費者的東西,這其實也很有趣。好的,那麽首先讓我向在座各位提一個問題。
大家作為既熱衷於AI學術界又致力於為消費者打造真正AI產品的個人,是如何將前沿AI研究轉化為面向消費者的成果?這是你們日常工作的一部份嗎?
楊安: 我可以先回答。我目前在教育行業工作,而孩子們將成為下一代使用者,也是未來公司需要僱用的勞動力。因此,創新以及如何部署這些創新來真正幫助下一代,是我的關註點。這意味著以使用者為中心的設計,我們必須理解孩子們的需求。
隨著技術的不斷發展,每個現代家庭的父母都必須成為創新者,家庭裏的每個孩子也必須成為創新者,因為舊的學習方式幾乎在我們眼前消失了。我們剛剛聽到兩位教授講述了如何進入頂尖大學。我知道家長和學生們必須找到新的方法來展示他們的能力和資質。因此,我想發掘更多這些方面的內容,希望新技術能夠更好地為他們服務。
駱軼航: 佳銘,你怎麽想?
宋佳銘: 從我的角度來說,我認為問題是作為學術界和工業界的從業者,如何保持好奇心。兩者的衡量標準是不同的,學術界通常是為了發表論文,讓你的研究被社區認可,而工業界更多的是關於如何建立產品,並為更多人創造長期影響。因此,雖然兩者都需要創新,但在工業界,某些更難的問題反而可以更容易解決,因為有長期規劃,而不是專註於學術研究。在Luma我們主要關註產品。和我交談的人提出了許多難以實作的需求,這對我們研究人員提出了挑戰,因為我們當時無法解決這些問題。但也讓我們有機會提出一些從根本上改變現狀的新解決方案。
駱軼航: 那麽在Luma,工作模式是產品團隊推動研究人員實作這些目標嗎?
宋佳銘: 實際上是雙方相互推動。研究人員對什麽是可能的有更好的理解,而產品設計師當然有全新的願景,但有些願景短期內很難實作。不過他們的願景確實非常出色。因此這更像是在權衡短期和長期的能力。
駱軼航: 李沐,你怎麽考慮這個問題?
李沐: 過去十年我主要從事AI技術工作,幫助解決不同的問題。大多數是B2B業務,比比如幫助像Amazon這樣的公司開發新產品,或者幫助初創公司為大型企業提供客戶解決方案。但幾個月前,我意識到,為什麽不利用這些技術來解決我自己面臨的問題呢?比如,我有兩個孩子,我花了很多時間照顧他們。那麽是否有可能用技術讓孩子們更快樂,或讓教育更好?我還考慮到父母,是否可以用技術幫助老年人?現在的技術已經好到足夠可以服務於孩子們和老年人。
駱軼航: 所以這促使你開始創業,專註於如何用AI幫助你自己和家人?
李沐: 我覺得這是一個很好的機會,可以探索新的方向。
駱軼航: 那麽讓我們更深地探討這個話題。在研究人員和消費者之間的關系上,你以深度學習的布道者而聞名,那麽你接觸非AI專業人士的經歷,是否有幫助你更好地理解人們對AI的需求?
李沐: 是的,我一直試圖幫助一些特定人群,比如碩士研究生,他們的導師通常忙於寫提案,沒時間教他們,所以這些學生需要幫助。另外,一些剛畢業進入工業界的學生也面臨很多挑戰。他們可能沒機會接觸最前沿的技術,但需要趕上這些新的技術浪潮。所以我考慮如何幫助這些人,但後來我意識到,很多人並不是真的想深入了解技術,他們只是把學習當作一種陪伴的方式,享受知識流過大腦的感覺,而不必記住所有內容。這改變了我與孩子們的相處方式。有時候我們不一定要教他們什麽,而是一起享受這個過程。
駱軼航: 這是你第一次這樣表述自己對「布道」的想法。你其實並不是在真正要教會那些觀眾,而更像是他們的陪伴者,對吧?所以這是否激發了你去做一些類似於AI伴侶的東西?
李沐: 是的,這是其中之一。
駱軼航: 很酷。那我們繼續討論AI伴侶的話題。你之前在社交媒體上提到你會做一些與此高度相關的事情。AI伴侶這個想法出乎很多人的意料。因為你之前一直從事其他領域的工作,但現在你和你的團隊正在嘗試開發一個具備最高IQ和EQ的AI伴侶。那它會是什麽樣子?它的形態如何?
李沐: 這是個好問題。我們目前的重點是AI技術,這只是我們想要模型前進的一個方向。我認為我們現在擁有的技術離最終目標還很遠,這個目標是模型或智能體能夠像人類一樣,甚至不一定是人類,只要足夠智能。尤其是對年輕人而言,能夠被認作是他們的朋友,要達到這個目標還有很多事需要做。如果你現在看看ChatGPT,甚至是幾天前宣布的ChatGPT即時功能,一開始非常令人驚艷,但過了一段時間後,你會發現它還是有很多不足,很多邊緣案例處理得不好,它並不真正理解你。
所以,最終我們設想的模型不一定是那種擁有超高智商的家夥。因為在生活中,大多數情況下你不需要重復教導別人,而更多的是情感支持。因此,模型需要非常好地理解人類情感。目前這很難做到,原因是我們缺乏足夠的數據。雖然我們有大量編碼數據和教科書數據,但我們沒有足夠的數據來理解人類情感和背後的邏輯推理。這使得在建模方面很難,
駱軼航: 既然你提到了這些挑戰,你認為你們能完成這個任務嗎?你們能夠構建一個具備最高情商和智商的AI伴侶,而其他團隊——比如Character AI之前未能實作這個目標——相比他們,你覺得你們的優勢是什麽?你為什麽相信你們可以做得更好?
李沐: 我並不認為他們失敗了,只是遇到了一些問題導致放棄了。Character AI的模型團隊去了Google,可能繼續開發相關技術,但作為一家公司,他們可能覺得這個專案需要五年或更長時間才能實作。因此這並不是成功或失敗的問題,而是五到十年的遠景。我認為我們需要這樣的AI伴侶,因為現在人們變得更加孤獨和孤立。過去可能三個人就能組成一個團隊,但現在一個人就能用各種工具,比如Cursor、Copilot和ChatGPT,獨自構建產品。所以當每個人都可以獨立工作時,你會發現沒有人可以交談。未來每個人都忙於自己的工作,沒時間聽你說話。AI伴侶可以成為你傾訴的物件,總結來說,我認為我們做到了。
駱軼航: 好的,那麽讓我們轉向佳銘,仍然是關於面向消費者的內容。不過在此之前,我需要提出一個技術問題,昨天Meta釋出了他們的一個影片生成模型,叫做Movie Gen,令人驚訝的是,它舍棄了擴散模型,轉而采用了一種新的架構,名為Flow matching。你對這一點有什麽看法?畢竟你在職業生涯中做了大量擴散模型的研究。
宋佳銘: 我認為在Flow matching、擴散模型以及擴散變壓器這些概念之間,人們的理解存在一些誤解。首先我要總結一下,流匹配與最初提出的擴散模型框架有所不同,但差別並不顯著。它的不同之處在於,相同訓練預算下能夠在較少的采樣步驟內取得更好的效果。不過類似的結果早在Stability以前的論文中就已經展示過,他們使用了一種稱為「修正流」(rectified flows)的概念,這實際上與Flow matching的想法非常相似。修正流最初是由德州大學柯士甸分校張召(Zhang Zhao)教授團隊提出的,他們還進一步擴充套件了該概念。因此這並不是一種全新的模型。
駱軼航: 那與現有擴散模型相比,它的區別在哪裏?
宋佳銘: 在擴散模型中,一個非常重要的概念是將雜訊與原始輸入混合,而流匹配和傳統擴散模型之間的差異主要體現在如何混合這些輸入,以及在訊號與雜訊的比例(通常稱為訊噪比)上的不同。擴散過程通常是從訊噪比無限大(無雜訊)到訊噪比為零(無原始訊號)的過渡。Flow matching也在這個框架內,不同的是它在這個過渡過程中的排程和訊號縮放方式不同。
駱軼航: 你覺得這種流匹配架構對使用者,比如那些創作者,會有什麽影響?
宋佳銘: 流匹配作為一種演算法,可能會加速訓練和推理過程,這也是大家在擴散模型中試圖解決的關鍵問題之一。比如我個人之前在解決這個問題時,透過演算法改進將推理速度提升了5到10倍,之後還有很多後續工作也在改進采樣速度。而與擴散模型類似,流匹配會繼續在這些領域中存在,因為它與擴散模型的訓練技巧非常相似。至於變壓器,它是一種通用架構,目前大模型,比如自回歸變壓器,在語言模型中廣泛使用。所以這些演算法和架構雖然有區別,但它們之間是相關聯的。流匹配和修正流的影響在於,它們提供了更好的超參數來訓練這些模型。
駱軼航: 好的,那我們來聽聽Alan的看法。Alan,你的研究和工業界的商業化非常接近,尤其是在AR或VR領域,並且與你提到的以人類中心的使用者體驗設計密切相關。那麽你是如何從潛在的AI消費者中學習的?比如那些年輕父母、青少年,甚至是新生兒,他們可能是這類AI產品的早期采用者。你是如何確保你的研究以人類為中心,並且準確達成這些目標的?
楊安: 我可以舉幾個例子。我拿到了電腦視覺方向的博士學位,那是在26歲左右,那個時候深度學習剛剛興起。大家都知道,隨著技術的發展,教授們越來越忙於寫論文,可能沒有太多時間教學生。我認為,作為教授或者教育行業的從業者,我們唯一需要關註的使用者就是孩子、學生,以及他們的父母。我們如何幫助他們?目前我還沒有看到任何AI產品能夠真正引導孩子們去學習STEM(科學、技術、工程、數學),學生的學習動機仍然依賴於學校、孩子和父母之間的合作。
在柏克萊,我們建立了一些專案來激發孩子們對技術的興趣,比如AI賽車專案。令人驚訝的是,年僅六歲的孩子們已經開始討論自動駕駛了。我認為,透過這種方式,我們可以讓學生們感受到技術的興奮和價值,從而激發他們的學習興趣。
在這個AI賽車專案中,我們發現從五歲到七十歲的人都能立即理解賽車的意義。無論是用無線遙控在廚房裏操控賽車,還是在賽車場上以150英裏的時速賽車,都能激發他們的興趣。因此,我們的專案吸引了很多有才華的本科生和研究生參與,他們能夠看到自己的貢獻如何變得有趣和有價值,並將其介紹給父母或未來的雇主。
駱軼航: 那麽在柏克萊,你會遇到來自各種背景的年輕人,他們可能學習文學、哲學、社會學等學科,有些人甚至對人工智能有抵觸情緒。你如何看待這個差距?你將如何彌合這些誤解?
楊安: 我再給你舉兩個例子。其中一個是我們目前在柏克萊正在進行的專案。我們在柏克萊有一個頂級領域,叫做TAI,代表教學助理智能平台(Teaching Assistance Intelligence.berkeley.edu)。這個想法是利用GPT技術,為每門柏克萊的課程提供24/7的GPT個人助理。要知道,在柏克萊,我們有超過5萬名學生,很多基礎課程可能有上千名學生參與,甚至在多個班次中一起上課。為了給學生提供更好的教育,一個方式就是去中心化教育。而透過24/7的GPT助理,可以讓學生在任何時候獲得幫助。我認為,下一代對這些技術的抵觸會比老一代小得多,就像我女兒,她一發現特斯拉可以自動駕駛,完全沒有感到擔憂,這對她來說是非常自然的事。我相信,當她長大後,會覺得所有的車都應該自動駕駛,而手動駕駛的車可能會變成她這一代人的「古董」。
當然,這個過程並不能套用於所有方面。比如我們目前正在與高通公司合作的一個研究專案,發現設計師和工程師之間存在很大的鴻溝。假如我們想要設計一個全新的使用者介面,這並不是AR或VR的界面,也不是傳統的UI,而是基於GPT的UI,類似於電影【鋼鐵俠】中的賈維斯。我們發現設計師在這個專案中的第一個問題就是,他們對大語言模型(LLM)如何觸發作業系統功能完全沒有概念。因此,傳統設計師需要接受相當系統的教育才能理解如何將GPT整合到界面中。這是我們在柏克萊透過研究長期解決的一個問題,我們需要立即解決這些問題,而不能等到下一代。
駱軼航: 同樣的問題轉向佳銘,想聽聽你從使用者端的反饋,尤其是關於Dream Machine的使用者,他們可能是個人創作者或專業的影片制作工作室。我猜測,大多數使用者可能需要連續運動的角色,可能持續30秒或更長時間,或者需要更加真實的3D影像,同時希望生成成本能大幅降低。那麽這些使用者的痛點是可以透過逐步改進來解決的,還是需要從零開始進行新的研究?
宋佳銘: 這是個很好的問題。我認為使用者的需求非常多樣化,而我們實際上是在Dream Machine推出後才真正了解到使用者的需求。因此,我們確實在推出時並不了解這些需求。但我們確實從使用者的行為中學到了很多,他們的想象力遠遠超出了我們的預期。我認為有些需求可以透過擴大規模來滿足,然而生成影片的成本依然很高,因為影片包含大量像素,並且需要處理龐大的上下文資訊。因此,確實需要一些基礎研究的改進來進一步降低成本。但我對這個領域的進展持樂觀態度,因為我們看到,在過去兩年中,語言模型領域的成本大幅下降,而影像生成的質素也顯著提高。所以我對未來的進展充滿信心。
駱軼航: 太棒了!接下來我們再討論一下未來的趨勢。大家怎麽看待未來AR或VR器材的發展?比如Meta剛剛釋出的Orion眼鏡,以及在AR器材中的內容生成和影片生成模型的結合。 佳銘怎麽看待這個問題?畢竟luma目前沒有從事硬件方面的工作。你如何看待影片生成與AR或VR器材的結合?
宋佳銘: 我認為影片生成和影像生成在3D和4D生成中非常有用,未來我們肯定會看到更多的4D生成工作。過去一年裏,隨著影片模型的出現,確實有更多的套用場景,因此它們在AR和VR套用中也非常有用。不過,要想看到廣泛的套用,我們確實需要看到這些硬件的廣泛普及。
駱軼航: 李沐,你認為AI伴侶是否會在虛擬現實環境中存在?
李沐: 是的,這是我們與一家大型遊戲工作室正在合作的專案之一。他們已經做了很多開放世界的3D遊戲,但我們設想,下一代遊戲不再需要1000個設計師來編寫劇情,而是由邏輯模型自動生成所有的故事情節、角色、事件和互動。這是AI生成的劇情、角色、社會和人類之間的互動,應該是有趣且一致的。
駱軼航: 我是三國遊戲的超級粉絲,如果遊戲中的每個角色都由一個足夠強大的視覺模型生成,他們會彼此互動,我們也可以和他們透過自然語言進行對話,會非常有趣。
最後一個問題,請每個人給出一個簡潔的回答。
你們怎麽看待多模態模型在實作通用人工智能目標中的作用?早上,李開復在台上談到了多模態的重要性,他說多模態模型將推動大量的創新套用。你們怎麽考慮?
宋佳銘: 語言建模中的一個核心概念是可延伸性,基本上是你擴大數據和模型的規模,效能就會變得更好。有些人認為這是一條通往AGI的道路。不過,我們不能無限增加模型規模,但我們可以顯著擴大數據規模。語言建模領域幾乎已經用完了所有的語言數據,正在依賴合成數據生成,但在影片、音訊等多模態領域,還有大量的數據尚未利用。因此,我認為多模態AGI的路徑在於利用這些海量的數據。
李沐: 過去半年,我們在音訊多模態領域進行了一些研究,發現現在的問題是,在開始的前一分鐘,多模態模型的表現都很好,能夠處理情感資訊。但一分鐘之後,文本模型的表現依然更好,推理和上下文的處理依然是文本主導。因此,文本仍然是關鍵,其他模態可以讓產品更加有用,但能否顯著提升效果,暫時還不確定。
駱軼航: 好的,今天的討論就到這裏,希望大家都享受了這場討論。謝謝各位!