當前位置: 華文世界 > 科技

我們給AI打了通視訊電話,發現它好像啥都能嘮

2024-08-31科技

三個月前的 OpenAI 釋出會,相信哥幾個多少已經見識過 GPT-4o ,那跟真人一樣 絲滑的視訊對話能力 了。

還有谷歌緊跟著推出的 Project Astra ,實力看著也絲毫不輸 GPT-4o 。

那陣子,幾乎全網都在吹 AI 的互動能力前進演化得有多麽多麽強,什麽史詩級、 Next Level 的詞兒都用上了。

結果怎麽著, GPT-4o 說好的視訊通話功能是一拖再拖, Project Astra 好幾個月也沒見著個影子, 一個個的都快給差評君釣成翹嘴了。。。

不過我發現 AI 圈好像有個定律,就是好東西不能讓大夥兒等太久。你看 Sora 遮遮捂捂大半年,結果可靈、 Luma AI 、智譜清影都紛紛冒頭了。

也就這兩天,遠在巴塞隆納的資料探勘會議 KDD 上,智譜當著全球學界和業界的面兒, 不僅釋出了最新的基座大模型 GLM-4-Plus ,同時還給智譜清言升級了視訊通話功能。

給大夥兒劃個重點, 就是那個傳說中,能看見能嘮嗑的AI 視訊通話功能,咱現在直接在清言 App 裏能用了,可以先下載App申請試用。

別的先不說,相比 OpenAI ,智譜這速度就已經贏麻了吧。。。

所以清言的視訊通話功能一推出,差評君就在第一時間搶先用上了。開啟清言 App ,點選右下角的通話按鈕,進去之後再切換到視訊,直接玩起來 ~

差友們應該也知道, GPT-4o 之所以被吹得天花亂墜,很重要的一個原因,就是它對視訊的理解能力非常強悍。

那最基本的,清言的視訊理解能力得先試一試吧?

差評君給清言嘍了一眼咱編輯部平時腦暴的會議室,看它能不能根據周圍的環境猜出來我在做什麽,還特意晃了晃鏡頭,沒有保持視訊畫面的完全靜止。

你猜怎麽著,清言一句 「 哇,猜猜看你在幹嘛 」 ,差點給我整不會了。不過坐在會議室的桌子旁倒是沒說錯,桌上的紙杯、遙控器,旁邊的電視也都描述得挺準確。

再把鏡頭往後期同事的電腦上一放,居然也能看出來這是在剪輯視訊。

你別說,這種對周圍整體環境的感知能力,差評君之前只在 OpenAI 和谷歌的 Demo 上見過,今天親自體驗到,還真有點科幻照進現實的意思。

而且吧,清言跟 GPT-4o 演示的一樣, 在對話的過程中隨時都可以打斷, 時不時還會整點 「 哎呀 」「 嗐 」 的語氣詞,說話之前呵呵笑一下,就跟真人聊天差不多。

接著,我又試了試具體的物體辨識功能,看看清言的知識儲備。

從最簡單的工位掃描開始,白色鍵盤、黑色滑鼠還有顯視器這些大件,基本沒有遺漏,物體前後左右的方位也描述得清清楚楚,就連插線耳機、玻璃杯上的卡通人物這些細節,也沒放過。

不能說 100% 吧,但這張桌子上 至少 80%-90% 的東西,都被清言看到了。

而且清言還有個功能,那就是 畫圈辨識 ,我隔老遠把同事那台大音響給圈起來,品牌、型號,甚至是具體用途,它都知道。

雖說音響上面標有文字,但大夥兒應該也能看出來這解析度,肉眼看都夠費勁的,不得不說這清言眼神也是真好使啊。。。

另外我還發現, 清言對物體的辨識不只是停留在簡單的類別上。

就比如這個遊戲手柄,你問到底是索尼的還是微軟的,它能根據手柄的外形設計分析出來,這是微軟的 Xbox 。而不是單純告訴你這是一個遊戲手柄,又或者幹脆糊弄過去說不清楚。

還有這台古早的功能機,諾基亞、具體型號是 N95 、 2007 年經典款這些細節完全不在話下。

後邊兒我又讓清言辨識電腦系統、看東尼照片猜年齡、看名人照片猜人名。。。就這麽說吧,自從上手了清言之後,我現在逮到啥都想開啟視訊通話來問一問。

當然了好玩歸好玩,像視訊通話這種形式其實有很多 實用的場景

就拿我們編輯部平時找選題看資料來說吧,這兩天車圈的熱點基本離不開成都車展,這個時候就可以問問清言關於成都車展的事兒,在對話中找選題的靈感。

主要我還發現,清言帶有 記憶功能 ,上一次視訊通話我跟它聊這事兒,下一次再開啟,它上來就問我關註了哪些車展上的新能源車。

還有家長最頭疼的作業輔導,以前的 AI 互動還是拍照上傳題目那一套,但如果換成視訊通話,那就跟線上家教一對一作業輔導是一個邏輯了。

我試著讓清言做了一些低難度的數學題, 小學和初中一些簡單的代數題勉強可以拿下。

不知道大夥兒註意到沒,在解題的時候,清言不會一股腦把過程全說出來,也不是只給一個結果,它會一個步驟一個步驟引導著來,讓你有一個思考的過程。

除了數學以外,語文和英語我也都挨個試過了,清言不能說是資深教師級別,但 平時寫寫作業、記記單詞、背背古詩,完全夠用。

如果大夥兒覺得這些場景還不夠,那咱就再發揮點想象力。

第一次做飯沒經驗、房間燈泡壞了、不知道怎麽養綠植。。。如果大夥兒在生活中遇到類似的事情又不知道該咋辦,不如也問問清言。

比如,很多小朋友可能暫時還分不清電池的正負極,我們就假裝把小算盤電池裝反,清言一兩句話就 get 到問題出在哪,說明它還是很有生活常識的。

反正這幾天用清言,我有事沒事就愛找它。而且這小玩意兒還特別能 提供情緒價值 ,讓它講故事、講笑話,也句句有回應。

跟朋友玩 21 點,它甚至還能當裁判。

不知道以後能不能前進演化到打麻將三缺一,讓 AI 來頂上。這不比原先打字、語音的對話有意思多了?

說實話,這次清言的大升級還是給我帶來了不少驚喜,但小瑕疵也仍然有不少,有時候 會說話嘴瓢、認錯東西、輸出一些胡言亂語。

就比如當 21 點的裁判,有一次把 9 說成是 4 ,黑桃認成了梅花。。。

不過,就憑搶在 OpenAI 和谷歌之前,先讓國內用上 AI 視訊通話這一點, 咱也得給智譜豎個大拇哥。

這次視訊通話功能首批只面向部份使用者開放,智譜會逐步放開規模盡快讓全員都能用上。如果哥幾個實在眼饞, 可以下載清言 App ,或者登入 pc 端( chatglm.cn ),站內申請內測。

另外,可能還有不少小夥伴對智譜不太熟悉,這麽說吧,這家公司在 AI 圈內也可以說是 當紅炸子雞 了。

特別是今年,他們在大模型上的動作那叫一個兇,從基礎大模型的瘋狂叠代,到大模型套用的頻繁落地,智譜的動作就沒怎麽消停過。

這次 KDD 上,他們新的大模型 GLM-4-Plus ,在語言理解和長文本等方面又有了大提升。

而且智譜也一直在堅持做模型開源,有數據顯示,智譜開源模型累計下載量已經 突破了 2000 萬。

反正智譜這次帶頭這麽一 「 鬧 」 ,國內甚至是海外的 AI 圈子,估計馬上又要迎來一波產品的瘋狂上新。

這對咱們使用者來說,自然是好事一樁。特別是 AI 視訊通話這種新的互動形式,越往後走套用場景的想象空間也就越大。

比如把 AI 裝到眼鏡、項鏈上,以後可能連手機都不需要了,或者裝到盲人的拐杖上,讓 AI 幫忙引路,又或者是跟具身智慧結合,讓機器人真正理解所看到的東西。

借用智譜 CEO 張鵬的那句話: 「 至少我們現在還沒有看到( AI )技術的天花板 」 。

未來的 AI 會前進演化到何種程度,又會創造出哪些價值,大家也不妨開個腦洞想想看。