我們給AI打了通視訊電話，發現它好像啥都能嘮

2024-08-31科技

三個月前的 OpenAI 釋出會，相信哥幾個多少已經見識過 GPT-4o ，那跟真人一樣 絲滑的視訊對話能力 了。

還有谷歌緊跟著推出的 Project Astra ，實力看著也絲毫不輸 GPT-4o 。

那陣子，幾乎全網都在吹 AI 的互動能力前進演化得有多麽多麽強，什麽史詩級、 Next Level 的詞兒都用上了。

結果怎麽著， GPT-4o 說好的視訊通話功能是一拖再拖， Project Astra 好幾個月也沒見著個影子， 一個個的都快給差評君釣成翹嘴了。。。

不過我發現 AI 圈好像有個定律，就是好東西不能讓大夥兒等太久。你看 Sora 遮遮捂捂大半年，結果可靈、 Luma AI 、智譜清影都紛紛冒頭了。

也就這兩天，遠在巴塞隆納的資料探勘會議 KDD 上，智譜當著全球學界和業界的面兒， 不僅釋出了最新的基座大模型 GLM-4-Plus ，同時還給智譜清言升級了視訊通話功能。

給大夥兒劃個重點， 就是那個傳說中，能看見能嘮嗑的AI 視訊通話功能，咱現在直接在清言 App 裏能用了，可以先下載App申請試用。

別的先不說，相比 OpenAI ，智譜這速度就已經贏麻了吧。。。

所以清言的視訊通話功能一推出，差評君就在第一時間搶先用上了。開啟清言 App ，點選右下角的通話按鈕，進去之後再切換到視訊，直接玩起來 ~

差友們應該也知道， GPT-4o 之所以被吹得天花亂墜，很重要的一個原因，就是它對視訊的理解能力非常強悍。

那最基本的，清言的視訊理解能力得先試一試吧？

差評君給清言嘍了一眼咱編輯部平時腦暴的會議室，看它能不能根據周圍的環境猜出來我在做什麽，還特意晃了晃鏡頭，沒有保持視訊畫面的完全靜止。

你猜怎麽著，清言一句「哇，猜猜看你在幹嘛」，差點給我整不會了。不過坐在會議室的桌子旁倒是沒說錯，桌上的紙杯、遙控器，旁邊的電視也都描述得挺準確。

再把鏡頭往後期同事的電腦上一放，居然也能看出來這是在剪輯視訊。

你別說，這種對周圍整體環境的感知能力，差評君之前只在 OpenAI 和谷歌的 Demo 上見過，今天親自體驗到，還真有點科幻照進現實的意思。

而且吧，清言跟 GPT-4o 演示的一樣， 在對話的過程中隨時都可以打斷， 時不時還會整點「哎呀」「嗐」的語氣詞，說話之前呵呵笑一下，就跟真人聊天差不多。

接著，我又試了試具體的物體辨識功能，看看清言的知識儲備。

從最簡單的工位掃描開始，白色鍵盤、黑色滑鼠還有顯視器這些大件，基本沒有遺漏，物體前後左右的方位也描述得清清楚楚，就連插線耳機、玻璃杯上的卡通人物這些細節，也沒放過。

不能說 100% 吧，但這張桌子上 至少 80%-90% 的東西，都被清言看到了。

而且清言還有個功能，那就是 畫圈辨識 ，我隔老遠把同事那台大音響給圈起來，品牌、型號，甚至是具體用途，它都知道。

雖說音響上面標有文字，但大夥兒應該也能看出來這解析度，肉眼看都夠費勁的，不得不說這清言眼神也是真好使啊。。。

另外我還發現， 清言對物體的辨識不只是停留在簡單的類別上。

就比如這個遊戲手柄，你問到底是索尼的還是微軟的，它能根據手柄的外形設計分析出來，這是微軟的 Xbox 。而不是單純告訴你這是一個遊戲手柄，又或者幹脆糊弄過去說不清楚。

還有這台古早的功能機，諾基亞、具體型號是 N95 、 2007 年經典款這些細節完全不在話下。

後邊兒我又讓清言辨識電腦系統、看東尼照片猜年齡、看名人照片猜人名。。。就這麽說吧，自從上手了清言之後，我現在逮到啥都想開啟視訊通話來問一問。

當然了好玩歸好玩，像視訊通話這種形式其實有很多 實用的場景 。

就拿我們編輯部平時找選題看資料來說吧，這兩天車圈的熱點基本離不開成都車展，這個時候就可以問問清言關於成都車展的事兒，在對話中找選題的靈感。

主要我還發現，清言帶有 記憶功能 ，上一次視訊通話我跟它聊這事兒，下一次再開啟，它上來就問我關註了哪些車展上的新能源車。

還有家長最頭疼的作業輔導，以前的 AI 互動還是拍照上傳題目那一套，但如果換成視訊通話，那就跟線上家教一對一作業輔導是一個邏輯了。

我試著讓清言做了一些低難度的數學題， 小學和初中一些簡單的代數題勉強可以拿下。

不知道大夥兒註意到沒，在解題的時候，清言不會一股腦把過程全說出來，也不是只給一個結果，它會一個步驟一個步驟引導著來，讓你有一個思考的過程。

除了數學以外，語文和英語我也都挨個試過了，清言不能說是資深教師級別，但 平時寫寫作業、記記單詞、背背古詩，完全夠用。

如果大夥兒覺得這些場景還不夠，那咱就再發揮點想象力。

第一次做飯沒經驗、房間燈泡壞了、不知道怎麽養綠植。。。如果大夥兒在生活中遇到類似的事情又不知道該咋辦，不如也問問清言。

比如，很多小朋友可能暫時還分不清電池的正負極，我們就假裝把小算盤電池裝反，清言一兩句話就 get 到問題出在哪，說明它還是很有生活常識的。

反正這幾天用清言，我有事沒事就愛找它。而且這小玩意兒還特別能 提供情緒價值 ，讓它講故事、講笑話，也句句有回應。

跟朋友玩 21 點，它甚至還能當裁判。

不知道以後能不能前進演化到打麻將三缺一，讓 AI 來頂上。這不比原先打字、語音的對話有意思多了？

說實話，這次清言的大升級還是給我帶來了不少驚喜，但小瑕疵也仍然有不少，有時候 會說話嘴瓢、認錯東西、輸出一些胡言亂語。

就比如當 21 點的裁判，有一次把 9 說成是 4 ，黑桃認成了梅花。。。

不過，就憑搶在 OpenAI 和谷歌之前，先讓國內用上 AI 視訊通話這一點， 咱也得給智譜豎個大拇哥。

這次視訊通話功能首批只面向部份使用者開放，智譜會逐步放開規模盡快讓全員都能用上。如果哥幾個實在眼饞， 可以下載清言 App ，或者登入 pc 端（ chatglm.cn ），站內申請內測。

另外，可能還有不少小夥伴對智譜不太熟悉，這麽說吧，這家公司在 AI 圈內也可以說是 當紅炸子雞 了。

特別是今年，他們在大模型上的動作那叫一個兇，從基礎大模型的瘋狂叠代，到大模型套用的頻繁落地，智譜的動作就沒怎麽消停過。

這次 KDD 上，他們新的大模型 GLM-4-Plus ，在語言理解和長文本等方面又有了大提升。

而且智譜也一直在堅持做模型開源，有數據顯示，智譜開源模型累計下載量已經 突破了 2000 萬。

反正智譜這次帶頭這麽一「鬧」，國內甚至是海外的 AI 圈子，估計馬上又要迎來一波產品的瘋狂上新。

這對咱們使用者來說，自然是好事一樁。特別是 AI 視訊通話這種新的互動形式，越往後走套用場景的想象空間也就越大。

比如把 AI 裝到眼鏡、項鏈上，以後可能連手機都不需要了，或者裝到盲人的拐杖上，讓 AI 幫忙引路，又或者是跟具身智慧結合，讓機器人真正理解所看到的東西。

借用智譜 CEO 張鵬的那句話： 「至少我們現在還沒有看到（ AI ）技術的天花板」。

未來的 AI 會前進演化到何種程度，又會創造出哪些價值，大家也不妨開個腦洞想想看。