
如果說前幾年最火爆的概念是云計算,那么今年最火爆的概念就是大數(shù)據(jù)。但就好像云計算剛剛開始流行的時候,人們并不清楚云計算到底是什么一樣,現(xiàn)在人們對大數(shù)據(jù)的理解仍然有很多偏頗。
近日,《大數(shù)據(jù)時代》一書的作者維克托•邁爾-舍恩伯格來華訪問。騰訊科技與其進(jìn)行了獨家對話,探討大數(shù)據(jù)的意義以及未來發(fā)展方向。
大數(shù)據(jù)是一個相對的概念
維克托認(rèn)為,了解什么是大數(shù)據(jù)的定義非常關(guān)鍵。首先要明確的是,“大數(shù)據(jù)”并不是很大或者很多數(shù)據(jù)。
根據(jù)維克托書里所寫,大數(shù)據(jù)并不是一部分?jǐn)?shù)據(jù)樣本,而是關(guān)于某個現(xiàn)象的所有數(shù)據(jù)。比如書里寫到了日本的相撲,實際上統(tǒng)計了過去10年日本所有的大約64000場相撲比賽。從數(shù)據(jù)量上看,這只是很小的數(shù)據(jù),但是這是過去10年所有相撲比賽的數(shù)據(jù),所以這是“大數(shù)據(jù)”。
“大數(shù)據(jù)不是一個絕對的標(biāo)準(zhǔn),而是一個相對的量,大數(shù)據(jù)幾乎就是關(guān)于某件事的所有數(shù)據(jù),而不是部分抽樣數(shù)據(jù)。”維克托強(qiáng)調(diào)說。
第二點是,由于掌握了關(guān)于某個現(xiàn)象的所有數(shù)據(jù),那么在統(tǒng)計就就能接受更多混雜的東西,可以有更多不準(zhǔn)確的信息在里面。如果關(guān)于某件事我們只有15個數(shù)據(jù),那么這15個數(shù)據(jù)必須非常準(zhǔn)確,不然的話基于此的判斷就會有問題。但如果有1500萬個數(shù)據(jù),即便有1000個數(shù)據(jù)是有誤的,也不會影響全局。
第三,大數(shù)據(jù)的分析著重在了解“什么”而不是“為什么”。比如人們可以通過各種相關(guān)數(shù)據(jù)來了解未來將會發(fā)生什么,而不是這些事情發(fā)生的原因。要探尋原因會更難,而很多時候,知道什么會發(fā)生已經(jīng)足夠了。
維克托舉例說,比如我們知道禽流感的蔓延趨勢就可以了,而不需要知道為什么會這樣蔓延;知道什么時候去買機(jī)票最便宜就足夠了,而不需要知道為什么這個時候最便宜。
以上這些就是大數(shù)據(jù)的核心,有足夠多的數(shù)據(jù),允許數(shù)據(jù)中存在不不準(zhǔn)確的信息和不去探尋事件發(fā)生的原因而是探尋會發(fā)生什么事件。
數(shù)據(jù)即產(chǎn)品 應(yīng)由CEO親自負(fù)責(zé)
很多大公司都會有一個CIO的職位,而公司的CIO主要處理的就是信息和數(shù)據(jù)問題。維克托認(rèn)為,之所以會有這個職位是因為很多公司把數(shù)據(jù)看成了負(fù)擔(dān)。“但是數(shù)據(jù)應(yīng)該是一個產(chǎn)品。”
而如果把數(shù)據(jù)真正當(dāng)成公司的核心產(chǎn)品,那么大數(shù)據(jù)部門就應(yīng)該由公司CEO親自負(fù)責(zé)。維克托認(rèn)為,大公司的管理層應(yīng)該改變過去對數(shù)據(jù)的看法,數(shù)據(jù)不是一個風(fēng)險不是一個問題,而是一個潛在的產(chǎn)品,也是未來盈利的來源。
維克托表示,現(xiàn)在UPS這樣的公司也在利用大數(shù)據(jù)來提高。UPS在自己6萬輛運輸車?yán)锒佳b了GPS,這一方面是為了管控需要,另一方面也能利用到大數(shù)據(jù)。經(jīng)過分析,他們發(fā)現(xiàn)如果一輛車的行進(jìn)路線上有很多左轉(zhuǎn)彎或者經(jīng)常要過十字路口,那么這輛車更容易出現(xiàn)事故。于是他們就重新設(shè)計了路線,讓運輸車更多走右轉(zhuǎn)彎,這樣就降低了事故發(fā)生的頻率,提高了效率。
而數(shù)據(jù)也是大公司相對小公司的最大優(yōu)勢。過去大公司的優(yōu)勢在于龐大的基礎(chǔ)設(shè)施和服務(wù)器等,但是現(xiàn)在通過云計算,小公司也可以很快獲得這些能力。但是大公司長年積累的數(shù)據(jù)是小公司所沒有的。
維克托認(rèn)為,未來大數(shù)據(jù)發(fā)揮的作用主要會在教育、醫(yī)療以及其他“可預(yù)見性維護(hù)”領(lǐng)域,也就是說,在問題發(fā)生前,人們就可以通過大數(shù)據(jù)了解到問題所在。比如通過大數(shù)據(jù)人們能提前知道一臺機(jī)器是否馬上會出問題,并且在它出問題之前換掉某個部件。
大數(shù)據(jù)和移動互聯(lián)網(wǎng)
在移動互聯(lián)網(wǎng)領(lǐng)域,一些大玩家利用大數(shù)據(jù)在為人們提供服務(wù),同時也有新的創(chuàng)業(yè)公司因為找準(zhǔn)了位置,同樣能用大數(shù)據(jù)來支撐起自己的業(yè)務(wù)。
維克托表示,有一家名為Inrix的智能手機(jī)導(dǎo)航應(yīng)用公司,他們在導(dǎo)航的時候同時收集用戶信息,這樣就形成了一個循環(huán):越多人用效果就越好,效果越好就有越多人用。
而這些數(shù)據(jù)也為這家公司提供了其他價值,比如判斷天氣狀況對行駛的影響,比如保險公司能怎么做等等。“這也正是大數(shù)據(jù)的價值所在,并非收集數(shù)據(jù)的最核心目的,而是利用數(shù)據(jù)創(chuàng)造出二次價值。”維克托說。
至于這家公司一開始是怎么獲取最初數(shù)據(jù)的,維克托介紹說,Inrix一開始和UPS和FedEx簽約,從而積累了初始數(shù)據(jù)。
蘋果公司也在利用大數(shù)據(jù)來創(chuàng)造價值。在過去電信公司會收集你手機(jī)使用的各種信息,但是他們完全沒有把這些信息用起來。但是蘋果和所有電信運營商簽了協(xié)議,他們獲得了這些數(shù)據(jù)。這時候等于蘋果獲得了大數(shù)據(jù)。在定位的時候,蘋果就可以利用 GPS,WiFi熱點和移動基站來幫助定位。
事實上,谷歌街景車做的事情也不僅僅是拍照,他同時也搜集了大量的信息。
大數(shù)據(jù)并非萬能 要防止捧殺
維克托表示,雖然大數(shù)據(jù)在未來能發(fā)揮巨大的作用,但是仍然面臨一些挑戰(zhàn)。
一方面的挑戰(zhàn)來自政策監(jiān)管。維克托表示,現(xiàn)在已經(jīng)有政府看到了大數(shù)據(jù)的重要性,所以希望進(jìn)來做點什么,但是他們實際上不知道該怎么做。他認(rèn)為現(xiàn)在政府最好什么都不要做,先讓市場自由競爭。
第二個挑戰(zhàn)來自人們對大數(shù)據(jù)的誤解。因為現(xiàn)在大數(shù)據(jù)已經(jīng)成了人們開口必談的一個問題,這導(dǎo)致很多人以為大數(shù)據(jù)能解決所有問題,而當(dāng)大數(shù)據(jù)無法解決某些問題的時候,人們就會認(rèn)為大數(shù)據(jù)其實很無能,于是拋棄了大數(shù)據(jù)。
“所以,我們現(xiàn)在要做的是讓大家知道大數(shù)據(jù)是什么,能起到怎樣的作用以及我們應(yīng)該如何利用大數(shù)據(jù)。”維克托說。