幾個工程師、一個星期,就能做一個AI Agent套用了。
效果be like——
能理解使用者復雜長命令,推薦符合要求的奶茶店。
推薦兩公裏內、評分4.5以上、人均消費25元以內幹凈衛生的奶茶店。
要知道,這背後需要它能分析處理不同模態的數據,比如文本、地理資訊、影像等。
放在以前,構建這樣的AI套用需要多個不同的數據庫,還需要配備經驗豐富且規模較大團隊來管理復雜技術棧。
如今,能如此輕松搞定,多虧了背後的一體化數據庫OceanBase
。
最新釋出會上,OceanBase推出首個面向實時分析處理場景的GA版本:4.3.3版本。
不僅推出全新向量檢索
功能,實作SQL+AI一體化
,還進一步增強多模態數據處理能力
。
感覺方方面面都是為AI時代做好了準備啊。
為啥能這麽說?
從最新釋出的新能力看起。
首個面向實時分析的GA版本
此次OceanBase 4.3.3核心升級的能力主要有3方面:
AP場景效能提升
多模態數據支持
向量檢索與索引
首先,OceanBase 4.3.3版本升級了對復雜數據類別
處理能力。
新增Array類別,這意味著數據庫可以直接儲存、查詢和運算元組數據。並對Roaringbitmap類別數據的計算效能進行了最佳化,意味著數據庫能夠更高效地處理和操作大型集合數據。
其次,OceanBase 4.3.3在向量融合查詢的關鍵能力上帶來提升,推出全新向量檢索能力
,支持向量數據類別和向量索引,並基於向量索引提供強大搜尋能力。
使用者可透過SQL及Python SDK等方式靈活呼叫OceanBase的向量檢索能力。
如今,在通用數據庫中整合向量外掛程式已經成為一種趨勢,這種方式能夠直接復用通用數據已有功能和生態。
OceanBase與螞蟻集團聯合開發了向量索引庫,這個索引庫已經在螞蟻集團大量業務場景中得到驗證(如生物辨識、企業內部知識庫等),效能成熟。
現場跑分結果顯示,該向量庫在960維的GIST數據集上表現出色,在ANN Benmarks測試中效能遠超其他演算法,排名第一
。
特別是在 90% 以上的召回率區間,查詢效能(QPS)相比此前最優演算法 glass 提升 100%,相比基線演算法hnswlib提升300%。
該向量引擎深度融合了OceanBase的儲存引擎和SQL引擎,實作SQL+AI一體化
。能夠在一條SQL語句中實作純量、向量、空間地理等混合查詢。
比如「望小京」demo中,使用者給的提示詞為「推薦兩公裏內、評分4.5以上、人均消費25元以內幹凈衛生的奶茶店」。這背後涉及到處理文本、影像和地理位置等不同類別的數據,需要更強大的數據分析和查詢能力。
最後,OceanBase 4.3.3還針對AP(分析處理)場景進行大幅效能最佳化,尤其是在海量數據分析時,能夠提供更短的響應時間和更高的吞吐能力。
TPC-H 1T場景提升64%
TPC-DS 1T場景提升36%
ClickBench hot- run提升49%
cold-run效能提升149%
同時大幅完善了即時AP功能
,包括支持列存副本、物化檢視、外表整合、快速匯入匯出等。
實作滿足TP和AP負載的物理資源強隔離,可確保系統在處理事務型負載時,不受分析型負載的影響,特別是在即時數據分析和決策場景中,能夠保持系統的高效能與穩定性。
在易用性方面也做了升級,透過提供AP參數版本,使用者可以針對不同場景選擇特定樣版,不需要再單獨配置參數。並增強了AP場景中對SQL診斷能力的支持。
總結來看,OceanBase 4.3.3在基礎分布式能力上,帶來更強效能、向量多模融合、融入AI技術棧。
也就是將AI與數據庫進一步融合。
這並不難理解,AI套用/AI Agent大勢所在,各類套用智能化升級改造,底層數據庫必須緊隨趨勢升級。
不過在這之中,OceanBase還反復提到了一個關鍵詞——一體化
。
它不僅是OceanBase的自身特性,如今也逐漸成為行業擁抱AI時代的一個優解。
Why?
更快推動AI套用大規模落地
對於數據庫的發展,行業內逐漸達成一些共識。
AI能力大幅提升,導致全球80%以上的非結構化數據被啟用,背後的挖掘分析需求井噴,在這一新變化下,數據處理面臨更大規模、更多模態、即時性更強以及數據碎片和數據孤島問題。
這些變化給數據庫提出了諸多新的發展需求。
最首要的便是,分布式數據庫
成為一種大趨勢。
華東師範大學數據學院院長、CCF數據庫專委會常委錢衛寧提出,互聯網時代數據走向了開放環境
,在數據是分布式的時代裏,數據庫也需要是分布式的。
分布式數據庫
可以讓多台伺服器協同作業,完成單台伺服器無法處理的任務,尤其是高並行或者大數據量的任務。
除此之外,隨著AI、雲端運算等技術發展,數據庫還呈現出以下特點。
第一,雲端運算的普及推動了雲數據庫的快速發展
。雲數據庫提供按需擴充套件、高可用性和成本效益。
第二,大數據和非結構化數據需求增加,多模態
是一種趨勢,NoSQL數據庫(如MongoDB、Cassandra、Redis、Couchbase)越來越受到歡迎。NoSQL數據庫提供了更好的擴充套件性和靈活性,適用於儲存和處理各種數據類別,如文件、鍵值對、圖數據等。
第三,HTAP數據庫成為熱點
,甚至是主流數據庫的一項基礎能力。這類數據庫能夠同時處理事務性和分析性工作負載,滿足了企業即時數據處理和分析的需求。
第四,開源也是一大趨勢
。開源數據庫(如PostgreSQL、MySQL、MariaDB)憑借其社區驅動的發展模式、強大的功能和靈活的部署方式,成為企業和開發者的熱門選擇。
不過來到實際落地層面,盡管數據、數據庫在變得更加多元復雜,但是企業使用者總還是希望能只用一套系統來解決不同工作負載
。
比如能同時在事務處理(如支付、訂單等高頻交易場景)和復雜的實時分析查詢,這背後需要TP+AP結合。
以及AI與多模查詢能力的融合,如Rockset和Oracle這樣的數據庫系統透過hybrid search融合查詢技術,將SQL查詢與向量化查詢相結合,使得數據處理能夠同時包含文本、結構化數據和向量數據等不同類別。
方方面面影響下,一體化設計
逐漸成為被市場青睞的路線。
以MongoDB和Oracle為代表的數據庫廠商正在各自推動一體化數據庫的發展。國家工業資訊保安發展研究中心等共同編制的【分布式數據庫發展趨勢研究報告】中也表示,分布式數據架構的設計正在走向一體化
。
在這之中,OceanBase的一體化理念非常鮮明。它包括:
一體化產品
:多工作負載(TP+AP)、多模(SQL+NoSQL)、向量(SQL+AI)。
一體化引擎
:一體化儲存,一體化事務,一體化SQL。
一體化架構
:包括單機分布式一體化與多雲原生。
OceanBase介紹,這種一體化的思路是隨著客戶需求不斷發展而來。
首先在底層架構設計上,單機分布式一體化與多雲原生並存,可以滿足大中小企業的不同需求。OceanBase已經和目前主流雲廠商均達成合作,實作公有雲「多雲共生」,同時也提供專有雲、混合雲等不同部署環境,保證一致體驗。
其次隨著數據庫場景不斷變化,從傳統場景到泛互聯網場景,OceanBase從TP到TP+AP,逐漸走向多工作負載一體化。
比如在第一階段OLTP+,會浮現出山東移動這類客戶的需求,他們主要關註復雜查詢場景,需要增強業務處理效率。
第二階段浮現出了海底撈這類使用者的需求。海底撈本來使用兩個系統分別處理OLTP和OLAP,這導致OLTP和OLAP之間存在數據延遲,沒法保證數據一致性,還需要兩份數據兩份成本。OceanBase能將其整合,不僅使整體成本降低,還能提升原本的AP效能。
第三階段還會浮現出即時行銷等場景,對即時AP提出更多要求。
以及在實際推廣中,OceanBase發現越來越多客戶將OceanBase既套用在KV儲存場景,也套用在NoSQL場景,或者替換HBase、Redis等。因為OceanBase能夠解決各個場景中很多棘手問題,比如對於NoSQL而言,最大的挑戰在於數據規模,分布式架構可以很好解決數據擴充套件的問題。
因此,順應使用者需求,OceanBase在不斷增加對多種數據類別的支持,實作多模一體化。
最後,來到AI時代。「AI for DB,DB for AI」成為共識。
AI套用大規模落地的前提是大模型技術能夠在各行各業低成本易用。
數據庫的發展經驗可以為AI套用推廣提供參考。比如在數據庫中引入向量外掛程式,實作SQL+AI,能夠大幅簡化原有AI技術棧,讓打造AI Agent的門檻驟降。
最後總結來看,以OceanBase為代表的一體化數據庫不僅能為企業提供更更好的數據底座,而且方方面面都滿足AI套用發展的需求。它總體呈現出這些特點:
第一,高效的數據處理和分析
。
支持HTAP,能夠在同一個系統中同時處理事務性(OLTP)和分析性(OLAP)負載。企業可以即時地對交易數據進行分析,而不需要等待數據的同步和轉移,從而加快決策速度和響應時間。
實時分析,可以在數據生成的同時進行分析,確保數據的時效性,這對於即時推薦、風控、監控等AI套用至關重要。
第二,簡化的數據管理
。
一體化數據庫能夠確保數據的一致性和完整性,因為事務處理和分析處理在同一個系統內完成,避免了數據同步和轉換過程中可能出現的延遲和錯誤。
透過將多種數據類別(如關系型數據、文件數據、向量數據等)整合在一個系統中,一體化數據庫簡化了數據儲存和管理。企業不需要維護多個數據庫系統,減少了數據孤島問題和運維復雜性。
第三,靈活性和擴充套件性
。
一體化數據庫支持多模態數據處理,能夠處理和分析結構化、半結構化和非結構化數據。這種靈活性使企業可以在一個平台上處理不同類別的數據,滿足各種業務需求。
一體化數據庫可以在公有雲、私有雲和本地數據中心的混合環境中部署,支持異構環境下的數據管理和套用。這使企業能夠根據業務需求靈活選擇和調整部署方案。
第四,簡化AI套用構建
。
AI套用通常需要進行高效的向量檢索和相似性搜尋。一體化數據庫透過深度整合向量引擎,支持快速向量化計算和相似度查詢,提升AI套用的效能。
一體化數據庫能夠將數據儲存和AI模型緊密結合,支持復雜的AI工作負載。這種整合減少了數據傳輸的延遲,提高了模型訓練和推理的效率。
第五,降低成本和復雜性
。
一體化數據庫減少了企業需要維護的數據庫系統數量,簡化了技術棧,降低了系統整合和運維的復雜性。
透過最佳化資源利用和減少多系統間的數據同步和轉換,一體化數據庫降低了總體擁有成本,提高了投資回報率。
AI時代,Data is Power
。
李飛飛當初篤定做ImageNet,背後的核心邏輯就在於,她相信AI改變世界,數據是最簡單最直接的方式。
如今,AI套用落地趨勢已經開啟。數據作為生產要素,在AI時代已是水電般的存在。
而一體化數據庫正在為數據更充分靈活高效套用提供新思路。
據了解,一體化數據庫OceanBase將成為螞蟻集團的AI數據底座,為一系列AI時代新套用「支小寶」、「螞小財」以及支付寶百寶箱智能體開發平台的數據管理提供支持。
一體化正在成為數據庫發展歷程中,一個旗幟鮮明的方向。