AI for DB進入新競爭周期｜企服國際觀察 - 科技

2024-07-15科技

AI for DB正悄悄成為一個火熱賽道。最顯著的特征之一是去年紅極一時的向量數據庫/向量檢索技術，越來越受到AI大模型落地的追捧。

AI for DB，即關註AI為database數據庫服務。從使用者痛點上，傳統的數據庫基礎設施並不是為AI大模型所設計的，也不是為了滿足現如今的向量檢索而設計。

例如，企業落地大模型套用，必然需要構建龐大的數據集，只有高質素、高密度的數據去訓練模型，才有可能得到更精準的效果。但獲取和管理如此龐大的數據通常需要大量資源，包括儲存資源、計算能力和數據處理能力。同時，整合具有各類格式、質素、顆粒度、異構的資料來源也會使得模型訓練過程變得復雜。這也是為什麽企業目前對生成式AI仍保持謹慎樂觀的原因之一。

鈦媒體註意到，從去年開始，在海外市場，頭部的數據庫/數倉企業，甚至於大模型企業都已經在積極采取產品釋出、或進行收購、合作的方式，搶占AI數據庫的市場先機。例如，雲數倉公司Snowflake宣布將與輝達合作，為企業量身客製AI模型；Databricks以10億美金收購Apache Iceberg背後公司Tabular；OpenAI以5億美金收購擁有向量檢索技術的數據庫公司Sockset……

不過，從目前來看，AI與數據庫的結合思路，也不僅僅是與向量檢索相關。過去幾年，像自治數據庫、數據庫自監控自診斷、將低程式碼+AI引入到text2SQL等等，都是業內企業客戶還在探索、尚無定論的方向。

但也有業內人士警示，AI與數據庫的結合仍然是個很新的技術方向，也可能存在技術的踏空。

不論AI for DB的趨勢，一個首先存在的疑問是：為什麽是現在？以及新的解決思路是什麽？

簡化數據套用和使用

以Oracle為例。

過去兩個月，Oracle先後公布對其兩款核心數據庫管理系統——Oracle Database和MySQL HeatWave數據庫進行了AI重塑。單從其數據庫名稱的變更上就有了明顯的指向性：前者由Database 23c直接改為Database 23ai，而後者則升級為了HeatWave GenAI。不同時代版本從「i」互聯網、「g」網格、「c」雲、「ai」人工智能、「GenAI」生成式AI的變遷，能夠反映出Oracle敏銳洞察不同時代下客戶訴求的引爆點。其中，Database 23ai正是對上述提及的向量數據庫，以及超過300個主要功能進行了升級。

開發人員可以用自然語言與Oracle數據庫「對話」，呼叫生成式AI的能力，生成SQL並執行出最終結果，達到跟數據庫對話的目的。

具體來講，23ai的Vector Search（向量檢索）功能，使LLM（大語言模型）可以使用自然語言界面查詢私有業務數據，並幫助LLM提供更準確和更相關的結果。客戶可以使用Vector Search功能，安全地將文件、影像和其他非結構化數據與私有業務數據結合搜尋，而無需移動或復制這些數據。這意味著，可以將AI演算法引入到數據所在的位置，而不必將數據遷移到AI演算法所在的位置，實作AI在Oracle數據庫中的即時執行，大大提高AI的有效性、效率和安全性。

HeatWave GenAI，主要包含數據庫內LLM、自動化數據庫內向量儲存、可延伸向量處理，以及基於非結構化內容進行自然語言上下文對話的功能。使用HeatWave GenAI，開發人員可以使用內建的嵌入模型，透過單個SQL命令為企業非結構化內容建立向量儲存。使用者可以使用數據庫內或外部LLM在單個步驟執行自然語言搜尋。數據不必離開數據庫，由於HeatWave具備龐大的規模和超高的效能，使用者不需要預配GPU。因此，開發人員可以降低套用的復雜性、提高效能、加強數據安全性並降低成本。

不難看出，Oracle的思路是，為AI和數據提供統一操作平台，這與其他數據庫產品形成鮮明對比。

例如，數據庫內LLM功能使得使用者可以執行開發模型和應用程式所需的任務，而無需將數據匯出到可能不安全的環境中或將可能不安全的LLM匯入其數據環境。由於無需匯出或匯入，因此不存在通常與匯出大量數據或匯入大量LLM相關的成本；數據庫內向量儲存，則讓使用者無需將數據移動到單獨的向量數據庫，也不需要具備AI專業知識。

而關於業內關註的向量數據庫，鈦媒體此前曾分析，如果數據庫廠商不單獨研發向量數據庫，那麽基本上會主張支持原生的向量詞嵌入和向量搜尋引擎。

目前從23ai其實也在透過產品自證：向量檢索應該是數據庫內建能力，而非獨立產品。如果兩種類別的數據都由單個數據庫管理，那麽對業務和語意數據組合的搜尋會更容易、更快、更精確。而支撐這一路徑的解決方案是，一個可以管理所有數據的數據庫，並以高效能和非常經濟的方式進行管理。在甲骨文公司副總裁及中國區董事總經理吳承楊看來，「所有數據都應該放在一個地方。這樣一來，提問和查詢就變得容易多了。」

「今天大多數人的做法是，將數據庫的數據拿到AI，再拿出來，往往還會涉及數據安全問題、管理許可權問題等等。Oracle的做法是把AI帶到數據庫，將向量數據庫嵌到整個數據庫。不光是向量，能夠將文本、圖、JSON等多種類別數據整合起來的融合數據庫，這一點只有Oracle能做到。」吳承楊表示。

甲骨文公司中國區技術咨詢部高級總監李珈給鈦媒體分享了一則案例：某企業客戶從開源向量數據庫遷移到了Oracle融合數據庫。其背後驅動因素核心有三點：一是套用架構方面，原有套用架構涉及了不同技術棧，且管理復雜度較高，效率低；二是在數據與架構擴充套件時的效能問題；三是無法與現有業務數據實作整合，檢索整體環節的效率往往不高。在李珈看來，做出這樣選擇的客戶越來越多，已不是個例。

「有的客戶就是將標簽資訊放到MongoDB，許可權資訊、身份資訊放到MySQL，知識圖譜放到圖數據庫，然後文件等向量數據存放到向量數據庫裏，這導致套用整合起來比較難。」李珈表示。

吳承楊指出，遷移這件事情本身並不復雜。關鍵是，客戶需要透過對比去感受，哪種技術方案（融合還是其他）會更加適合自己。客戶認為數據很重要，但除了專業的DBA，客戶往往對數據庫是無感的。今天的數據庫，不是講特別時髦的技術名詞，而是透過客戶的使用感受去決定數據庫應該怎麽做。

為此，Oracle還提出了現代數據平台包括「4個Any」，即Anytime,Anywhere,Any Data,Anyone，目標就是將數據的管理、開發到生成，都得到簡化。

AI for DB進入下個競爭周期

整體來看，Oracle的AI戰略圍繞著企業使用AI的實際場景而制定，打造了涵蓋整個技術堆疊的端到端生成式AI矩陣。包括基於Oracle Cloud Infrastructure（OCI）的AI基礎設施構建支撐，面向AI提供數據的Oracle Database,Oracle Autonomous Database和MySQL HeatWave等數據庫產品，以及內嵌生成式AI功能的ERP、HCM和CX等SaaS套用。

不久前的財年財報中，Oracle就釋放出一項重要資訊：僅在第四季度，Oracle就簽訂了超過30份AI銷售合約，總價值超過125億美元，其中包括一項重要合作，將微軟Azure平台擴充套件到OCI，支持OpenAI在推理等算力方面的需求。

現在大模型競爭是非常激烈的，近期各家大模型產品叠代的速度正明顯加快，這對於模型訓練速度就會提出很高的要求。GPU越多、數據集越大、語料庫越大，提供的基礎設施能力越強，訓練時間越短，就越能提高新品更新速度。

「目前Oracle最大的算力集群可達到3萬張卡，未來量級可能會更大。」甲骨文公司中國區技術咨詢部高級總監嵇小峰指出，OCI從第一天起就致力於提供先進的AI和HPC基礎設施，Oracle專門做了網絡的最佳化，構建了一套無失真網絡體系，讓整個GPU的可延伸性變得更加強大。

OCI Supercluster可以實作多個GPU協同工作，同時Oracle即將釋出高效能檔案系統，可以更好滿足客戶的訓練需求。憑借新的OCI Compute裸機例項、超低延遲RDMA網絡和高效能儲存，OCI Supercluster的速度將顯著加快。OCI將會推出采用NVIDIA B200的機型，最大化幫助企業應對AI模型不斷增長的需求。

值得關註的是，2022年，Oracle與輝達宣布長期合作以來，旨在將輝達的完整加速計算堆疊引入OCI，如今，OCI已成為輝達的超大規模雲技術提供商，提供大規模的AI計算服務NVIDIA DGX Cloud。

嵇小峰解釋道：「盡管現在有了MoE模式，但在推理階段仍然需要大量算力。Oracle跟輝達的合作，不同於以往夥伴間的合作，在一些核心服務的落地，兩邊的產品部門都有深層的合作。」

某種意義上講，Oracle已經不單純是一家數據庫公司了。近些年在OCI、SaaS等層面的投入，已經讓Oracle真正意義上成為像微軟、谷歌一樣的雲端運算公司。因而，理解Oracle在數據庫層面的投入邏輯，也不能照搬數據庫技術產品的限定，更不能站在國產替代的視角去判斷Oracle在中國市場的更多開啟路徑。

目前23ai公有雲版本已經推出了，預計在今年下半年會有本地版落地。這意味著中國企業客戶使用23ai的門檻也將大大降低。

過去幾年，Oracle已經在不斷強調，在服務中國出海、跨國公司在中國業務的「雙迴圈」拓展邏輯，Oracle與中國企業客戶的合作，也在重新整理對使用者訴求的理解。

（本文正選於鈦媒體APP 作者 | 楊麗，編輯 | 蓋虹達）