當前位置: 華文世界 > 科技

大模型的號角已在數據分析市場吹響|下篇

2024-09-04科技

接上回,復旦大學大數據學院與高等學術研究院副院長、上海市數據科學重點實驗室副主任陽德青,上海市大數據股份有限公司高級產品經理、DAMA中國認證首席數據官汪科科,以及來自觀遠數據、Datafocus、北極九章、思邁特Smartbi的演講嘉賓分別結合自己的行業經驗為大家分享了大模型在數據治理與數據分析行業的落地場景。

下半場,我們邀請到天津海量資訊副總裁楊智煒、瀾碼科技創始人兼CEO周健、數勢科技CTO韓秀鋒、北極九章合夥人兼首席布道師沙海洲以及DataFocus創始人兼產品經理王碧波同台交流。當AI遇見BI,二者將如何對話? 以下是

圓桌摘錄,內容較長,建議收藏:

01 八仙過海,各顯神通

楊巍: 今天現場成立最早的公司是天津海量資訊,是一家處理非結構化數據起家的公司,請問你們是從什麽時候、因什麽機緣進入數據中台以及結構化數據的市場?

▲ 楊 巍

楊智煒: 天津海量成立得比較早,1999年就成立了,和百度算是同期。我們當時也做搜尋引擎,不過是為企業級客戶做,核心技術是中文分詞。該技術服務過騰訊、阿裏以及海外等多家企業。後來圍繞該技術衍生出很多服務套用,比如智能采集、智能稽核等服務,但我們的技術底層始終圍繞大數據板塊。大數據平台最早是團隊在2005年前後開始搭建,一直到今天已經叠代到第五代。伴隨著AI技術的出現,我們也試著將AI結合我們自身的大數據架構層層嵌入,來支撐我們一直在做的事情,能夠更智能化地為客戶服務。

▲ 楊智煒

楊巍: 台上企業成立第二久的是DataFocus,成立於2014年。在你們公司網站上有一句話叫,太多的工程師、太多的企業日夜與數據庫打交道,他們甚至忘了SQL是一種極其小眾的語言。當下,大語言模型生成機器語言的能力應該說已經被證實了,請問王總您認為DataFocus的解決方案是暫時領先的、大模型更新後或將很好地寫出小眾的機器語言,還是說即使在目前大模型的架構下,在相對長的一段時間裏,你們都有不可替代的優勢?

王碧波: 哈哈,這個問題非常直接,也感謝楊老師能夠看到我們很早之前寫的這樣一句話。我們對大模型的能力也有第一時間的感知,BERT、T5模型的時候就已經關註了。我覺得這麽多年以來,幻覺是大模型技術根本性的問題,是很難消除的。假定說它沒有幻覺,它可能也就沒有創新能力了,就像是一體兩面,你不能指望它既有創造力,又什麽錯都不犯。總體來說,我們可以期待下一代模型準確率會繼續提高,幻覺現象會減弱,但要想讓它完全杜絕這個問題短期內是不可能的,所以目前來看我們的路線仍然是未來比較靠譜的。

▲ 王碧波

楊巍: 好的,謝謝。時間來到2018年,北極九章成立了。北極九章最早成立的時候有一個口號,把增強型數據分析最早帶入中國。增強型分析聽起來也在講AI和數據分析的結合,所以我想請教一下,增強型數據分析和大模型驅動的數據分析的根本區別在哪裏?大模型技術的哪些部份可能是對之前增強型數據分析的顛覆,或是更好的技術實作?

沙海洲: 2018年那會兒大家都在卷敏捷BI、dashboard,我們就已經想做這麽一件事情,但是沒有想好如何定義。然後我們在Gartner那邊遇到了「增強型分析」這個概念,於是就借用它引進中國。其實增強是一個泛化的概念,我們只是希望能夠整體改變大家現有的和數據互動的方式跟整個工作流。而我們所做的增強型分析也並不意味著和大模型數據分析涇渭分明,我們會把包括大模型在內的多種技術,根據它們適合的場景,作為產品的功能模組,叠代到產品上,從效果上客戶受益是我們的終極目的。

▲ 沙海洲

楊巍: Gartner對toB的資訊服務行業確實有很大影響,這次有好幾位參會的嘉賓網站上都直接參照了Gartner的某句話或某個概念。時間再後移兩年,數勢科技成立了。數勢科技的主要產品是指標體系,韓總能不能簡單介紹一下指標體系和BI是什麽關系、有什麽區別?

韓秀鋒: 數勢科技是2020年成立的,創始團隊也都是百度和京東的背景。我個人是在2023年加入的,原先在百度做AI技術的場景落地,所以對AI技術產品化解決場景問題的領域有比較多的經驗。數勢科技在做企業數碼化轉型的過程中發現企業數據價值化的關鍵在於要讓數倉裏面的結構化和非結構化數據真正服務好企業各個場景的實踐。我們的產品也圍繞這個核心問題不斷地聚焦和收斂,最終選定了做企業數倉虛擬化的產品,在剛才的技術曲線裏面屬於HeadlessBI(無頭 BI)的技術路徑。也就是說,透過技術化的思路,自下而上地把業務的場景化語言、領域型語言與技術解耦,使得研發是研發,業務是業務。22年底、23年初,也被稱為大模型元年,我們看到了agent,看到了數據價值和大模型結合的機會,於是進一步讓數據和價值普惠化,叠代了我們的產品。

▲ 韓秀鋒

楊巍: 好的謝謝。又過了三年,瀾碼就成立了,可以說是大模型原生的企業。瀾碼的口號是人人都能設計自己的AI Agent。今天除了周總之外,其他公司都是搞BI,那麽請問Agent對BI究竟有什麽樣的作用?

周健: 在企業服務行業裏,AI Agent其實最早不叫Agent。Gartner在2021年提出,企業業務未來將發展為Composable,即業務是可拆解的、可組裝的,並提出一個能力「packaged business capabilities」,即封裝好的業務能力。換言之,我們可以透過RPA呼叫不同的套用,可以透過數據庫中獲取數據,可以透過BI或者機器學習獲得洞察等等,這些能力組裝起來就能變成各種各樣的Agent。Agent可以算是一個新時代的軟件產物,但解決的並不是上一代系統與系統之間的連線,而是賦能人和系統之間的連線。在我們做編排和自動化的過程中,很重要的一環就是對需求端的理解。我們經常說只吃第三個包子飽不了,所以我們為了吃第三個包子,還是要把前面第一個可能是RAG,第二個可能是數據分析,隨後可能是和API相關的func call能力等等都吃到肚子裏。到了現在這個階段,我們覺得Agent已經可以和其他傳統PAAS包括BI廠商一起合作,共同服務使用者,幫助使用者編排他們想要完成的任務,BI更著重解決需求理解這一側。

▲ 周健

02 大模型浪潮下的BI市場

楊巍: 接下來我有幾個問題與大家一起討論,每個問題想請兩位嘉賓來回答。首先想請北極九章和Datafocus的兩位結合你們業務落地時候的真實情況與我們分享一下,在大模型技術出現前後,BI終端使用者的角色和身份有沒有變化?

王碧波: 大模型出來之後,使用者明顯下沈,沒有太多技術基礎的人反而受益最大。原先他明白自己幹不了這些事,之前的做法可能是直接找IT人員幫我,如果IT做不了,那我幹脆就不幹了,所以有大量需求還沒有被釋放出來。現在當團隊引入這樣的產品後,門檻降低,業務人員就有機會慢慢參與這件事。

楊巍: 那請問沙總,您覺得按照Datafocus這位嘉賓的說法,數據分析師這個職位會不會從體制中消失?

沙海洲: 我覺得我們在座各位的目的都不是要幹掉現在的分析師,國內最大的問題是我沒有足夠多的分析師。數據分析師的概念大約十年前才在中國興起,截止目前總數是遠遠不夠的。當企業招不到足夠的數據分析從業者怎麽辦?我們覺得可以透過工具來彌補,讓普通的業務人員得到技術的賦能。

韓秀鋒: 我想補充一個實際案例。我們最近和國內餐飲top10的品牌書亦燒仙草合作,雖然他們闡述數據的需求在整個場景裏優先級是比較高的,但幾乎所有的店長和區域督導都不會使用傳統BI工具,總部只能透過巡店去看各門店的經營數據。後來接入我們的產品後,就很好地幫助他們這部份的數據價值落地了。所以在數碼智能時代,數據的消費市場必然是在不斷擴大的。同時,數據分析師、數據工程師等數據的生產者其實也需要不斷把企業知識能力進一步加工,讓企業知識和數碼人或是Agent相結合,與其說是替代,不如說是數據行業角色工作的內容和方式在轉變。

楊巍: 謝謝補充,剛好下一個問題我也是想請教您和Datafocus。Datafocus說他們的方案可以極大地簡化指標體系,我想聽聽您對此的評價。

韓秀鋒: 其實當下結合我們對客戶的服務實踐來看,最具落地性的還是指標平台加ChatBI的模式。在數據消費環節,我們透過ChatBI的方式把原先數據使用的門檻降低,一次性互動即可完成數據生產。同時我們強調企業整個數據的模型構建與業務領域知識全管理等等耦合在一起,構建過程與企業的復雜度、數據的量級都強相關,而且這個模型抽象化的質素也決定了後面它能不能叠代前進演化。因為數據治理或者數據積累很多都是越治越亂,需要不斷在新的平台上叠代。當然,各有各的路線選擇,路線也和企業具體的目標客戶和群體行業相關。

楊巍: 那我想請教王總,您覺得在數勢科技描述的數據非常復雜的情況下,你們的技術路線如何簡化他們的指標系統?

王碧波: 其實我整體比較贊成剛才韓總的觀點,Datafocus的產品目的也是從技術上簡化指標體系的構建。當然,市場上有許多企業大多數人對數據的要求都不明確,大家懶得提問或者壓根不知道該如何提問,這都是非常現實的問題,只不過Datafocus不做個人化客製的業務。

楊巍: 我理解的王總的意思是指標體系既是一個真實的需求,也是一個很好的商業模式,我想接著請教海量科技和北極九章有關商業模式的問題。我看了兩位的官網,海量的網站上沒有產品中心這個板塊,只有套用中心,裏面介紹了很多場景和能力;北極九章相反,只有產品中心和客戶實際的產品套用案例。所以我想請教二位,大模型驅動的BI在實際的商業模式中,產品化和客製化你們是如何取舍的?

楊智煒: 我延續前面指標的話題來說,因為我們現在很多數碼化工作也是圍繞企業的各項指標來實踐,我認為指標大致可以分為幾種類別,一種是計劃性指標,這部份是圍繞著PDCA模型,可以由企業按照計劃梳理出來的;第二種是突發性指標,這類指標圍繞著OODA模型,該類模型指標更多的是應對突發事件,我們工作的完備性;再有一類指標可以被稱為挑戰性指標,具有一定難度,需要考驗團隊的目標策略性。我們的業務展開正是基於這個邏輯。隨著互聯網的發展,其實面對挑戰的是後兩者的指標,我們需要打造的是產品個人化,輸出即結果的服務。企業的核心不是產品形態的標準化,而是其模式的標準化,就像麥肯錫的方法論是其核心,運用該方法論可以為不同的企業進行多元化的咨詢服務。

楊巍: 那請問北極九章目前有多大比例直接賣產品,有多少比例是做個人化的服務?

沙海洲: 我們公司只做純產品,我們服務各個行業的大客戶。我們認為雖然行業之間有各式各樣的區別,但是數據是可以極致抽象的,只要你的產品標準化程度足夠高,你就能夠幫助客戶解決他們的痛點。因為我們觀察發現客戶越來越理智,當需要用很高的成本解決20個需求和用極低的成本解決19個需求時,他們會選擇後者。當然,我們也會和一些產業夥伴合作,包括專門做數據中台、做指標平台的企業,由他們來負責幫助客戶解決一些個人化客製的需求。

楊巍: 那請問北極九章如何評價不做BI只做Agent的瀾碼科技?

沙海洲: 我覺得特別好。其實我們也看到許多在百模大戰中走出來的公司都在做一些商業化的積極轉變。我們近期正在對接的某客戶就提出過一個想法,說有沒有可能幫他們建立一個AI中台,用大模型的能力幫助他們在具體的業務場景下呼叫不同的小模型或套用,最終用大模型集中輸出,這也是大模型技術落地的一種形式,其實很接近Agent。我們不建議只依賴某種特定的技術或者固定的一種產品。我個人也非常喜歡瀾碼這種走在技術前沿的公司,當然我們自己也在努力做走在技術前沿的公司。

楊巍: 最後一個發言機會留給周總,瀾碼的BI要用別人的,你們準備怎麽與他們競爭呢?

周健: 為什麽要和他們競爭呢?我前幾天和一家做指標的合作夥伴聊天,對方擔心說未來會不會不需要指標,不需要再做ETL資料倉儲了,給出一句指令就一勞永逸了,但我個人認為這種情況不太會發生。我們每個時代都有自己時代的IT基礎設施,會有越來越多新穎的東西。就像最初數據庫其實僅僅用於銀行和營運商的核心系統,是十幾年前谷歌帶進來的技術,所謂的大數據,後來我們才進一步開始分析使用者行為數據等等。那其實今天大語言模型帶給我們最重要的也是處理非結構化數據的能力,我們的聊天記錄、零散的文本都得以被利用起來。不管是SQL還是Hadoop還是各種各樣的指標,BI是利用數據的方法,我相信這是不會被替代的,但未來一定會有越來越多層面的東西,人應該被解放去做這些創新的事情。舉個最簡單的例子,我現在總算有一個Agent可以去計算我們公司的周報和銷售的周報,可以利用大模型去理解周報並幫助我進一步做數據分析,最後給到我一些銷售的線索。我們的計算會變得越來越便宜,越來越多的數據能夠被利用起來,能夠發揮越來越多的價值。人們應該去打黑神話悟空,而不是在Excel裏面做算術盤數據,這是我們的觀點。

活動最後的 happy hour環節, 三伍拾科技 杭州量智數據科技 九地AI 以及 人社部AIGC教材副主編、導師盧山 也分別向現場觀眾介紹了自己在數據智能領域的實踐和洞察,創業者和技術愛好者也在此環節展開了充分交流與展示。

本次沙龍由啟迪之星(上海)、小即是大創新夥伴聯合CCF(上海)中國電腦學會主辦,由上海市女企業家協會科創專委會、上海數據集團、SMG團委共同協辦,並得到來自亞馬遜雲科技雲創計劃、歐美同學會上海AI分會、S創Slush、復旦mba讀書會、鈦媒體、億啟雲巢、SMG AI研習社、北大青年CEO俱樂部、LSE校友俱樂部、大連理工創業校友會、Datawhale、Llama中文社區上海站、五角場高新園、長陽創谷 、segmentfault 、上海AI愛好者俱樂部 、橘子聯盟的大力支持。