那么,到底什么是大的數(shù)據(jù)呢?最近,IT出版物eWeek提出了如下的看法,部分是基于Gartner公司的術(shù)語進(jìn)行定義的:“大數(shù)據(jù)涉及到結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量、種類和速度,通過網(wǎng)絡(luò)在處理器和存儲(chǔ)設(shè)備之間傳輸,并為企業(yè)的相關(guān)業(yè)務(wù)提供相關(guān)數(shù)據(jù)業(yè)務(wù)咨詢。”
這一描述切中了數(shù)據(jù)管理和分析的部分,但卻忽略了圍繞著大數(shù)據(jù)的業(yè)務(wù)挑戰(zhàn)這一基本面:復(fù)雜性。例如,大數(shù)據(jù)的安裝往往涉及信息——包括社交媒體網(wǎng)絡(luò)、電子郵件、傳感器、網(wǎng)絡(luò)活動(dòng)日志和其他數(shù)據(jù)源,這些都不能簡(jiǎn)單的融入到傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)。
而在許多情況下,需要把所有這些不同的數(shù)據(jù)放在一起,以在更廣泛的層面上使得它們具有意義。可能會(huì)給業(yè)務(wù)規(guī)則以及大數(shù)據(jù)分析系統(tǒng)的其他組成部分帶來很大的影響。當(dāng)涉及到數(shù)據(jù)存儲(chǔ)和查詢管理,大數(shù)據(jù)的復(fù)雜性使得其與傳統(tǒng)數(shù)據(jù)更加顯得不同,這便是分析數(shù)據(jù)庫和數(shù)據(jù)分析軟件廠商都不得不以加強(qiáng)了他們的產(chǎn)品,以幫助企業(yè)應(yīng)對(duì)大數(shù)據(jù)的主要原因。
對(duì)大數(shù)據(jù)的理解是評(píng)估你的技術(shù)需求和制定大數(shù)據(jù)分析計(jì)劃的第一步。其次是了解市場(chǎng)和當(dāng)前的趨勢(shì),以及您的企業(yè)希望從越來越大的和多樣化的數(shù)據(jù)集中獲得的商業(yè)價(jià)值和競(jìng)爭(zhēng)優(yōu)勢(shì)。
大數(shù)據(jù)分析項(xiàng)目的大議程
許多企業(yè)一直都有龐大的數(shù)據(jù)集。但現(xiàn)在,越來越多的企業(yè)存儲(chǔ)的數(shù)據(jù)已經(jīng)是TB級(jí)的,而不再是PB級(jí)的了。此外,他們正在尋找每日多次分析關(guān)鍵數(shù)據(jù),甚至是實(shí)時(shí)的分析,改變傳統(tǒng)的每周或每月進(jìn)行BI歷史數(shù)據(jù)審查的過程。他們要處理更多和更復(fù)雜的查詢,這涉及各種不同的數(shù)據(jù)集。這可能包括企業(yè)資源規(guī)劃和客戶關(guān)系管理系統(tǒng),再加上社會(huì)媒體和地理空間數(shù)據(jù),內(nèi)部文件和其他形式的數(shù)據(jù)交易信息。越來越多的企業(yè)也希望被賦予企業(yè)用戶的BI自助服務(wù)功能,使他們更容易了解分析結(jié)果。
所有這一切都可以發(fā)揮到一個(gè)大數(shù)據(jù)分析策略中,技術(shù)供應(yīng)商解決這些需要以不同的方式。許多數(shù)據(jù)庫和數(shù)據(jù)倉庫供應(yīng)商關(guān)注的重點(diǎn)是能夠及時(shí)處理大量復(fù)雜數(shù)據(jù)。有些使用柱狀數(shù)據(jù)存儲(chǔ),努力實(shí)現(xiàn)更快的查詢性能,或提供內(nèi)置查詢優(yōu)化器,或加入支持如Hadoop和MapReduce等開源技術(shù)支持等。
內(nèi)存中的分析工具可以幫助加速分析過程,通過減少從磁盤驅(qū)動(dòng)器傳輸數(shù)據(jù)的需要。而數(shù)據(jù)虛擬化軟件和其他實(shí)時(shí)數(shù)據(jù)集成技術(shù)可以用來組裝來自不同數(shù)據(jù)源的信息。現(xiàn)成的分析應(yīng)用程序適合經(jīng)常要處理大數(shù)據(jù)的垂直市場(chǎng),比如,電信、金融服務(wù)和在線游戲產(chǎn)業(yè)。數(shù)據(jù)可視化工具,可以簡(jiǎn)化大數(shù)據(jù)分析的查詢結(jié)果呈現(xiàn)的過程,更好的服務(wù)于企業(yè)管理人員和業(yè)務(wù)經(jīng)理。
在創(chuàng)建實(shí)施計(jì)劃和完成大數(shù)據(jù)基礎(chǔ)設(shè)施的選擇之前,適合上述有關(guān)數(shù)據(jù)和分析需求類別的企業(yè)首先應(yīng)該考慮以下的事項(xiàng)和問題:
•所需數(shù)據(jù)的及時(shí)性,因?yàn)椴皇撬械臄?shù)據(jù)庫都支持實(shí)時(shí)數(shù)據(jù)的可用性。
•相互關(guān)聯(lián)的數(shù)據(jù)和復(fù)雜的業(yè)務(wù)規(guī)則,將需要連接各種數(shù)據(jù)源。從而對(duì)企業(yè)績(jī)效、銷售機(jī)遇、客戶行為、風(fēng)險(xiǎn)因素和其他業(yè)務(wù)指標(biāo)有一個(gè)廣泛的認(rèn)識(shí)。
•需要進(jìn)行分析的歷史數(shù)據(jù)量。如果一個(gè)數(shù)據(jù)源只包含兩年的數(shù)據(jù)信息,但實(shí)際需要的是五年的數(shù)據(jù),這將如何處理?
•在你的行業(yè),哪些技術(shù)供應(yīng)商具備了大數(shù)據(jù)分析經(jīng)驗(yàn),他們是否具有相關(guān)的跟蹤記錄?
•在企業(yè)內(nèi),誰負(fù)責(zé)各種數(shù)據(jù),以及這些負(fù)責(zé)人將如何參與主動(dòng)的大數(shù)據(jù)分析?
這些因素并不構(gòu)成深入的需求計(jì)劃,但他們可以幫助企業(yè)在部署一個(gè)很大的數(shù)據(jù)分析系統(tǒng)和識(shí)別技術(shù)方面帶來一定的支持。