到底大數(shù)據(jù)是夸夸其談抑或確有其事,業(yè)界存在著各種不同的表述甚至是論斷。令人欣喜的是,越來越多的實(shí)際案例表明了在大數(shù)據(jù)中蘊(yùn)含著巨大的商業(yè)價(jià)值。但是,人們對于大數(shù)據(jù)的接受程度和理解程度依然不夠。而且,相關(guān)的概念、工具和方法論也有待進(jìn)一步成熟。
到底大數(shù)據(jù)是夸夸其談抑或確有其事,業(yè)界存在著各種不同的表述甚至是論斷。令人欣喜的是,越來越多的實(shí)際案例表明了在大數(shù)據(jù)中蘊(yùn)含著巨大的商業(yè)價(jià)值。但是,人們對于大數(shù)據(jù)的接受程度和理解程度依然不夠。而且,相關(guān)的概念、工具和方法論也有待進(jìn)一步成熟。
有些人從規(guī)模的角度來看待大數(shù)據(jù),比如PB(petabytes,相當(dāng)于1024TB)、EB(exabytes,相當(dāng)于1024PB)和ZB(zettabytes,相當(dāng)于1024EB)量級。為了理解方便,1E相當(dāng)于2的60次方。
如果還不清楚的話,我們可以再舉一個(gè)例子來說明–將1個(gè)EB的奧利奧餅干(Oreo)堆起來,其高度相當(dāng)于往返月球19041819次,或是往返太陽48938次。
根據(jù)IDC的2012年DigitaUniverse報(bào)告顯示:
2012年,全世界只有5%的數(shù)據(jù)被用來分析
2012年會(huì)產(chǎn)生2.8ZB的新數(shù)據(jù)
數(shù)據(jù)爆炸主要?dú)w功于PC、智能手機(jī)和互聯(lián)網(wǎng)的普及,尤其是在新興市場地區(qū)
在過去兩年中,來自于監(jiān)控?cái)z像頭和智能電表的信息使整體數(shù)據(jù)規(guī)模增長了一倍
對于2020年的情況,IDC也做出了相應(yīng)的預(yù)測:
數(shù)據(jù)總規(guī)模將達(dá)到40ZB,相當(dāng)于2010年的50倍
全世界的人均數(shù)據(jù)量是5247GB
新興市場地區(qū)會(huì)取代發(fā)達(dá)地區(qū)成為數(shù)據(jù)的主要來源
作為數(shù)據(jù)世界的“基礎(chǔ)架構(gòu)”,在IT硬件、軟件、服務(wù)、通訊和專業(yè)人員上面的投資將會(huì)增長40%。而在諸如存儲管理、安全、大數(shù)據(jù)和云計(jì)算等方面的投入將是增長最多的部分
無論你是否相信以上預(yù)計(jì),數(shù)據(jù)規(guī)模的急速膨脹是無可否認(rèn)的趨勢。但是,單單是規(guī)模還不能說明大數(shù)據(jù)的全部含義–比如當(dāng)今世界有16盎司容量的軟飲料、2700英尺高的摩天大樓、7磅重的西紅柿和8英尺高的巨人,這些數(shù)字雖然很大,但是其含義都很單薄。
在TechAmerican Foundation最近發(fā)布的報(bào)告《Demystifying Big Data: A PracticaGuide to Transforming the Business of Government》中,大數(shù)據(jù)被定義為“數(shù)據(jù)規(guī)模、復(fù)雜度和類型的急速增長”。從中我們可見,除了規(guī)模之外,速度、復(fù)雜度和類型也構(gòu)成了大數(shù)據(jù)的要素所在。
根據(jù)TechAmerican的報(bào)告,現(xiàn)有的數(shù)據(jù)中有15%是結(jié)構(gòu)化的–比如關(guān)系型數(shù)據(jù)庫和電子表格中以行列形式存儲的數(shù)據(jù)。這也就是說,現(xiàn)在有85%的數(shù)據(jù)是非結(jié)構(gòu)化的,比如存在于社交網(wǎng)站、音頻。視頻和電子郵件中的信息。對于傳統(tǒng)的商業(yè)智能工具(基本上都是針對結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的)來說,處理非結(jié)構(gòu)化信息是巨大的挑戰(zhàn)。
隨便看看現(xiàn)有的論述(無論是技術(shù)還是商業(yè)方面),基本上都認(rèn)為今后的數(shù)據(jù)增長主要來自于移動(dòng)設(shè)備、傳感器和社交媒體。因此,可能結(jié)構(gòu)化數(shù)據(jù)所占的比例將會(huì)降低,而非結(jié)構(gòu)化的比例越來越高–同時(shí)伴隨著復(fù)雜度和類型的增長。
真正的關(guān)鍵不在于技術(shù)和數(shù)據(jù)本身,而是這些新技術(shù)及其所催生的數(shù)據(jù)改變了我們工作和交互的模式 -- 更加緊密和持久的聯(lián)系意味著實(shí)時(shí)的交互模式。僅靠電子郵件進(jìn)行溝通已經(jīng)過時(shí)了,現(xiàn)在給你發(fā)了一個(gè)消息之后,我希望得到即時(shí)的回復(fù)。正如我20歲大的兒子經(jīng)常對我說的:“爸,現(xiàn)在只有老古董才用電子郵件了。”
實(shí)現(xiàn)大數(shù)據(jù)商業(yè)價(jià)值的5個(gè)要點(diǎn)
通常來說,以往的業(yè)務(wù)模式是基于歷史數(shù)據(jù)來決定未來一到兩年內(nèi)的行為,但是現(xiàn)在則應(yīng)該是基于過去幾分鐘內(nèi)的數(shù)據(jù)來決定未來12到24分鐘(甚至是秒)內(nèi)的行動(dòng)。在營銷模式上,以往是基于過去數(shù)周或數(shù)月內(nèi)的推廣活動(dòng)來預(yù)測特定人群對產(chǎn)品或者服務(wù)的偏好程度,而現(xiàn)在則是基于對客戶個(gè)體行為的分析和實(shí)驗(yàn)來為其提供實(shí)時(shí)的定制化服務(wù)(通過各種用戶界面,比如呼叫中心、網(wǎng)站、移動(dòng)應(yīng)用等)。可以想見,每個(gè)客戶所接收到的東西都是獨(dú)一無二的–一旦某客戶接收到了特定的服務(wù)或者產(chǎn)品,該服務(wù)或產(chǎn)品就不會(huì)重復(fù)提供給另一個(gè)客戶。這才是“大”的真正含義–大數(shù)據(jù)中的大生意。
對于數(shù)據(jù)分析人員、IT經(jīng)理以及整個(gè)企業(yè)來說,對于大數(shù)據(jù),有以下重要的考量和步驟:
1、在準(zhǔn)備行動(dòng)之前,和管理層及客戶進(jìn)行充分的溝通,了解業(yè)界最新進(jìn)展以及企業(yè)的真實(shí)需求;
2、基于大數(shù)據(jù)相關(guān)的新業(yè)務(wù)模式和新技術(shù),積極推動(dòng)企業(yè)戰(zhàn)略的升級;
3、基于業(yè)務(wù)戰(zhàn)略和模型,制定相應(yīng)的數(shù)據(jù)戰(zhàn)略和監(jiān)管流程;
4、以可管理的模式來推進(jìn)創(chuàng)新,比如較小的、短期的和可迭代的實(shí)驗(yàn)和探索,以此獲得易評測和有意義的結(jié)果;
5、在探索過程中允許錯(cuò)誤的發(fā)生。不斷從失敗中積累經(jīng)驗(yàn)才能提高未來工作的成功率。
無論出于什么原因,如果你或者你的公司還未認(rèn)識到大數(shù)據(jù)的無窮潛力,Rick Smolan和Jennifer Erwitt的近著《The Human Face of Big Data》可能會(huì)對你有所幫助 -- 其中有句話這么說到:“在孩子出生的第一天,人類產(chǎn)生的數(shù)據(jù)量就相當(dāng)于國會(huì)圖書館的70倍。”想想吧,這得有多少奧利奧餅干。