由于移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的崛起,數(shù)據(jù)量的激增讓大數(shù)據(jù)概念在互聯(lián)網(wǎng)行業(yè)中炒的十分火熱。根據(jù)IDC 2011年發(fā)布的Digital Universe Study,全球信息總量每過(guò)兩年,就會(huì)增長(zhǎng)一倍。僅在2011年,全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1.8萬(wàn)億GB)。相較2010年同期上漲超過(guò)1ZB,到2020年這一數(shù)值將增長(zhǎng)到35ZB,這就是大數(shù)據(jù)的創(chuàng)建和產(chǎn)生。
“大數(shù)據(jù)(Big Data)”并非新生事物,它在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)、自動(dòng)控制等科學(xué)領(lǐng)域,以及軍事、通訊、金融等行業(yè)業(yè)已存在多年。近年來(lái),隨著互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展,大數(shù)據(jù)愈來(lái)愈得到人們的關(guān)注,開始煥發(fā)出勃然生機(jī)。2012年初,《紐約時(shí)報(bào)》撰文,宣告“大數(shù)據(jù)時(shí)代”已然降臨。文章指出,“大數(shù)據(jù)”正在對(duì)各個(gè)領(lǐng)域都造成影響。舉例而言,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,越來(lái)越多的決策行為將日益依賴于對(duì)數(shù)據(jù)的收集和梳理分析而做出,基于經(jīng)驗(yàn)和直覺(jué)的判斷將被質(zhì)疑;而在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展和經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見(jiàn)能力也已嶄露頭角。
Gartner對(duì)“大數(shù)據(jù)”做出定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。這一定義指出大數(shù)據(jù)將成為企業(yè)和社會(huì)的重要資產(chǎn)。
從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣的數(shù)據(jù)中,快速獲得有價(jià)值的信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程是指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)則關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
大數(shù)據(jù)具備四個(gè)層面的特點(diǎn),它們分別是:第一,數(shù)據(jù)體量巨大:從TB級(jí)別,躍升到PB級(jí)別,甚至EB級(jí)別;第二,數(shù)據(jù)類型繁多:數(shù)據(jù)多樣,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等,幾乎無(wú)所不包。第三,價(jià)值密度低:不相關(guān)信息數(shù)量龐大,需要深度挖掘分析。例如,在連續(xù)不斷的視頻監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅有一兩秒。第四,處理速度快:“1秒定律”,即實(shí)時(shí)分析而非批量式分析,立竿見(jiàn)影而非事后見(jiàn)效,而這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume、Variety、Value、Velocity。
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,“數(shù)據(jù)即資產(chǎn)”這一觀點(diǎn)在業(yè)界已達(dá)成共識(shí)。如果說(shuō)云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問(wèn)的場(chǎng)所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向。從技術(shù)發(fā)展的角度來(lái)看,大數(shù)據(jù)仍處于高速成長(zhǎng)期。
大數(shù)據(jù)是具有國(guó)家戰(zhàn)略意義的新興產(chǎn)業(yè),正受到政府的高度關(guān)注。《“十二五”國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》提出支持海量數(shù)據(jù)存儲(chǔ)、處理技術(shù)的研發(fā)與產(chǎn)業(yè)化;《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》中,也將信息處理技術(shù)列為四項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一,其中包括海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,另外三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都是大數(shù)據(jù)產(chǎn)業(yè)的重要組成部分,與大數(shù)據(jù)產(chǎn)業(yè)發(fā)展密切相關(guān)。