當前位置: 華文世界 > 科技

12 個大數據定義:您的定義是什麽?

2024-09-04科技

柏克萊大學的研究人員估計,1999年世界上產生了大約15億G字節的資訊,2003年的一項重復研究發現,這一數碼在三年內翻了一番。數據已經變得越來越大,大約在2001年,行業分析師Doug Laney將「3v」——數量、種類和速度——描述為企業面臨的關鍵「數據管理挑戰」,在過去四年中,幾乎所有試圖定義或描述大數據的人都使用了同樣的「3v」。

「大數據」一詞的首次使用出現在1997年美國太空總署(NASA)科學家的一篇論文中,描述了他們在視覺化(即電腦圖形)方面遇到的問題,「這給電腦系統帶來了一個有趣的挑戰:數據集通常相當大,占用主記憶體、本地磁盤甚至遠端磁盤的容量。我們稱之為大數據問題。當數據集不適合主記憶體,或者當它們甚至不適合本地磁盤時,最常見的解決方案是獲取更多的資源。

2008年,一些傑出的美國電腦科學家推廣了這個術語,他們預測「大數據計算」將「改變公司、科研人員、醫療從業者以及我們國家的國防和情報行動的活動」。然而,「大數據計算」一詞從未在論文中定義。

(#1)傳統的權威定義數據庫當然是【牛津英語詞典】。【牛津英語詞典】對大數據的定義是這樣的:「規模非常大的數據,通常在一定程度上對其操作和管理構成了重大的挑戰。」

但現在是2014年,也許第一個尋找定義的地方應該是維基百科。事實上,【牛津英語詞典】似乎也參考了這個定義。維基百科對大數據的定義(在牛津英語詞典之前)是(#2)「一個包羅萬象的術語,指的是任何數據集的集合,這些數據集非常龐大和復雜,以至於難以使用現有的數據管理工具或傳統的數據處理應用程式進行處理。」

盡管這一定義的變體是大多數評論人士對大數據使用的定義,但它與美國太空總署研究人員1997年定義的相似之處暴露了它的弱點。「大型」和「傳統」是相對的和模糊的。

(#3)麥肯錫公司在 2011 年被廣泛參照的大數據研究突出了這個定義上的挑戰。將大數據定義為「其規模超出了典型數據庫軟件工具的捕獲、儲存、管理和分析能力的數據集」,麥肯錫的研究人員承認,「這個定義是主觀的,並且包含了一個關於數據集需要多大才能被視為大數據的定義。」因此,該研究的所有定量見解(包括透過估計企業和消費者每年儲存多少新數據來更新加州大學柏克萊分校的數據),都與數碼數據有關,而不僅僅是大數據,例如,沒有嘗試估計企業儲存的數據或數據集中有多少是大數據。

另一個著名的大數據來源是Viktor Mayer-Schönberger和Kenneth Cukier關於這個主題的書。他們指出,「大數據沒有嚴格的定義」,但他們給出了一個可以用數據做什麽的定義,以及為什麽大數據的規模很重要:

(#4)「社會以新穎的方式利用資訊以產生有用的見解或具有重要價值的商品和服務的能力」和「什麽東西可以在大規模上做而不能在小規模上做的事情,以提取新的見解或創造新的價值形式。」

Tom Davenport總結道,由於大數據的「定義問題」,「我(和我咨詢過的其他專家)預測這個術語的壽命相對較短。」不過,Davenport給出了這樣的定義:

(#5)「在過去十年左右的時間裏,出現了大量的新數據類別。」

讓我提供一些其他可能的定義:

(#6)新工具幫助我們找到相關數據並分析其含義。

(#7)企業和消費者資訊科技的融合。

(#8)對企業來說,從處理內部數據到挖掘外部數據的轉變。

(#9)對個人而言,從消費數據到創造數據的轉變。

(#10)奧利姆馬克西姆夫人(代表魔法的力量)和數據中校(代表科技的實力)的融合體。

(#11)你擁有的數據越多,你的見解和答案就會自動產生。

(#12)企業、非營利組織、政府機構和個人的新態度是,將來自多個來源的數據結合起來,可能會做出更好的決策。

我喜歡最後兩個。第11條是對為了收集更多數據而盲目收集更多數據的警告。第12條是承認將數據儲存在「數據孤島」中一直是讓數據為我們服務、改善我們的工作和生活的關鍵障礙。

本文轉載自 雪獸軟件

更多精彩推薦請存取 雪獸軟件官網