成人在线你懂的-成人在线免费小视频-成人在线免费网站-成人在线免费视频观看-日韩精品国产一区二区-日韩精品国产一区

掃一掃
關(guān)注微信公眾號

大數(shù)據(jù)時(shí)代:企業(yè)需要如何贏得競爭優(yōu)勢
2012-08-09   網(wǎng)界網(wǎng)

我們已經(jīng)進(jìn)入了“大數(shù)據(jù)時(shí)代”,2011 IDC Digital Universe報(bào)告說,數(shù)據(jù)增長的速度已經(jīng)超過了摩爾定律(Moore's Law)。這種趨勢表明企業(yè)處理數(shù)據(jù)模式的轉(zhuǎn)變,即隔離的孤島正在被大型集群服務(wù)器所取代,這種服務(wù)器集群將數(shù)據(jù)與計(jì)算資源保存在一起。

  從另一種角度來看這種模式轉(zhuǎn)變,這種轉(zhuǎn)變表明數(shù)據(jù)增長的速度和數(shù)據(jù)量需要一種新的網(wǎng)絡(luò)計(jì)算方法。在這方面,谷歌就是一個(gè)很好的例子。早在1998年谷歌推出測試版搜索引擎時(shí),雅虎公司占主導(dǎo)地位,其他競爭者還包括infoseek、Lycos等,而在短短兩年內(nèi),谷歌就成為主導(dǎo)搜索引擎供應(yīng)商。直到2003年,谷歌發(fā)布一份關(guān)于MapReduce的文件,我們才有幸窺見到谷歌的后端架構(gòu)。

  谷歌的架構(gòu)顯示了該公司如何能夠索引更多數(shù)據(jù),以更快地獲得搜索結(jié)果,以及比所有競爭對手更有效和更具成本效益地獲取這些結(jié)果。谷歌做出的轉(zhuǎn)變是將復(fù)雜的數(shù)據(jù)分析任務(wù)分成簡單的子任務(wù),這些子任務(wù)在并行商品服務(wù)器中執(zhí)行。單獨(dú)進(jìn)程被用于映射Map這些數(shù)據(jù),然后將其縮小Reduce到中期或最終結(jié)果。這種MapReduce框架最終通過Apache的Hadoop供企業(yè)使用。

  Hadoop簡史

  在2003年閱讀了谷歌的文件后,雅虎工程師Doug Cutting開發(fā)了基于Java的MapReduce,將其命名為Hadoop。在2006年,Hadoop成為Apache軟件基金會Lucene(一種流行的全文檢索庫)的子項(xiàng)目,并在2008年成為頂級Apache項(xiàng)目。

  從本質(zhì)上講,Hadoop提供了對大型商品計(jì)算機(jī)集群間的捕捉、組織、存儲、搜索、共享、分析和可視化不同數(shù)據(jù)源(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化),并能夠從幾十臺服務(wù)器擴(kuò)展到上千臺服務(wù)器,每臺服務(wù)器都提供本地計(jì)算和存儲。

  Hadoop包含兩個(gè)基本組成部分:首先是作為主要存儲系統(tǒng)的Hadoop分布式文件系統(tǒng)(HDFS),HDFS復(fù)制和分發(fā)源數(shù)據(jù)塊到服務(wù)器集群的計(jì)算節(jié)點(diǎn),以由一個(gè)或多個(gè)應(yīng)用程序進(jìn)行分析。其次是MapReduce,它創(chuàng)建了一個(gè)軟件框架和編程模型,用于編寫能夠并行處理大量分布式數(shù)據(jù)的應(yīng)用程序。

  Apache Hadoop的開源性質(zhì)創(chuàng)建了一個(gè)生態(tài)系統(tǒng),使其功能、性能、可靠性和易用性都不斷進(jìn)步。

  保持簡單性和可擴(kuò)展性

  在名為“數(shù)據(jù)不合理的有效性”的文章中,來自谷歌的研究人員將簡單的物理方程式(例如E = mc2)與其他學(xué)科對比,并指出,“涉及人類而非基本粒子的科學(xué)更適合使用簡單的數(shù)學(xué)算法”。

  事實(shí)上,簡單的公式完全能夠解釋復(fù)雜的自然世界,以及理解難以捉摸的人類行為,這也是為什么Hadoop普及的原因。

  研究人員發(fā)現(xiàn),相對簡單的算法適用于大規(guī)模數(shù)據(jù)集,并能產(chǎn)生驚人的結(jié)果。其中一個(gè)例子就是scene completion技術(shù),它使用一個(gè)算法來消除圖片上的某物(例如汽車),然后從成千上萬的圖片資料庫中尋找合適的照片進(jìn)行“修補(bǔ)”,當(dāng)圖片資料庫的照片增加到數(shù)百萬時(shí),該算法表現(xiàn)不佳。當(dāng)擁有足夠的數(shù)據(jù),這種簡單的算法表現(xiàn)極為出色。尋找模式以及“修補(bǔ)”技術(shù)是當(dāng)今很多數(shù)據(jù)分析應(yīng)用程序的共同主題。

  數(shù)據(jù)分析還面臨著另一個(gè)固有復(fù)雜性:非結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的增加。非結(jié)構(gòu)化數(shù)據(jù)(例如日志文件、社交媒體、視頻等)的規(guī)模和重要性同時(shí)在增加,并且有些結(jié)構(gòu)化在經(jīng)過一些變化后也失去了結(jié)構(gòu)。傳統(tǒng)分析技術(shù)在產(chǎn)生結(jié)果前需要對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行大量預(yù)處理,并且如果預(yù)處理存在某種缺陷的話,產(chǎn)生的結(jié)果可能是錯(cuò)誤的。

  Hadoop采用簡單算法來分析原始形式的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)以及產(chǎn)生有意義結(jié)果的能力是前所未有的,目前來看,也是無與倫比的。MapReduce使我們能夠以漸進(jìn)的方式來分析數(shù)據(jù),而必須要進(jìn)行復(fù)雜的數(shù)據(jù)轉(zhuǎn)換或者其他數(shù)據(jù)預(yù)處理,或提前創(chuàng)建任何模式或整合數(shù)據(jù)。

  數(shù)據(jù)分析的價(jià)格和性能

  Hadoop不僅提供卓越的數(shù)據(jù)分析功能和結(jié)果,還比傳統(tǒng)數(shù)據(jù)分析工具更具成本效益。其原因是傳統(tǒng)數(shù)據(jù)分析工具的擴(kuò)展數(shù)據(jù)分析能力主要遵循80/20規(guī)則:最初的小努力和付出能夠帶來大收益,但隨著數(shù)據(jù)集發(fā)展為大數(shù)據(jù),這種回報(bào)會減少。

  形成鮮明對比的是,Hadoop可以線性擴(kuò)展,這是有效且符合成本效益的數(shù)據(jù)分析的關(guān)鍵因素。隨著數(shù)據(jù)集的增長,傳統(tǒng)數(shù)據(jù)分析環(huán)境規(guī)模呈指數(shù)增長,為獲取洞察力需要投入更多額外費(fèi)用,這最終讓人望而卻步。而對于Hadoop,服務(wù)器集群能夠隨著數(shù)據(jù)集數(shù)量和規(guī)模的增長而直接附加存儲線性地?cái)U(kuò)展規(guī)模。

  Hadoop的這些優(yōu)勢是其在基于web的企業(yè)和數(shù)據(jù)密集型企業(yè)快速普及的主要原因。

  然而,Hadoop部署面臨的主要挑戰(zhàn)仍然是其文件系統(tǒng)。HDFS是append-only(只允許在這個(gè)文件之后追加數(shù)據(jù))存儲要求數(shù)據(jù)裝在Hadoop集群中,然而再輸出后處理以供不支持HDFS API的其他應(yīng)用程序使用。

  Hadoop在較大型企業(yè)部署的另一個(gè)障礙是需要采取使環(huán)境可靠的特殊措施。需要不斷監(jiān)控Hadoop以確保單點(diǎn)故障不會導(dǎo)致災(zāi)難,在數(shù)據(jù)丟失的情況下,數(shù)據(jù)會被重新加載到Hadoop集群。

  沖破障礙

  Hadoop的這些問題已經(jīng)成為過去式。開源社區(qū)創(chuàng)造了一個(gè)充滿活力的生態(tài)系統(tǒng),使Hadoop不斷完善。一些公司現(xiàn)在正在提供基于開源Hadoop的商業(yè)產(chǎn)品

  越來越多商業(yè)Hadoop產(chǎn)品的推出推動了Hadoop的更廣泛普及。這些商業(yè)產(chǎn)品使Hadoop更易于整合到企業(yè),以及提供企業(yè)級的性能和可靠性。實(shí)現(xiàn)這些改進(jìn)的方法之一是使用現(xiàn)有的標(biāo)準(zhǔn)通信協(xié)議作為基礎(chǔ),來使傳統(tǒng)環(huán)境和Hadoop環(huán)境無縫集成。

  結(jié)束還是剛剛開始?

  數(shù)據(jù)分析模式正在轉(zhuǎn)變,這為企業(yè)帶來了真正的機(jī)會。Hadoop讓所有企業(yè)能夠通過這種模式轉(zhuǎn)變所提供的洞察力優(yōu)勢來獲得顯著的競爭優(yōu)勢。

  Hadoop無疑是一個(gè)改變游戲規(guī)則的技術(shù),并且隨著企業(yè)級商業(yè)Hadoop產(chǎn)品的推出,Hadoop本身也正在發(fā)生轉(zhuǎn)變。這些下一代解決方案正引領(lǐng)新的數(shù)據(jù)分析模式。

熱詞搜索:

上一篇:未老先衰?云計(jì)算發(fā)展六大趨勢前瞻介紹
下一篇:維基百科停擺原因:光纖故障服務(wù)中斷

分享到: 收藏
主站蜘蛛池模板: 汪俊个人资料简介| 尹馨演过的三部电影| 雪山飞狐之塞北宝藏演员表| 普通攻击是二连击的妈妈你喜欢吗| 帕米尔医生电视剧全集免费观看 | 时尚购物| 思想认识不到位,重视程度不够| 少年团时代成员| superstar电影在线播放| 夫妻一场电视剧全集在线观看| 少年派1主演名单| 喜羊羊第一部全集免费| 穆丹| 刘浩存个人简历资料| 国土防线| 大森元贵| 发现一个神奇的定胆方法| 俺去也电影网| 三人行菲律宾| 杨佑宁个人简历| 装饰色彩| kaori主演电影在线观看| 音乐僵尸演员表| 金枝欲孽在线观看免费完整版| 好好的电影| 快乐读书吧1-6年级推荐书目| 麦子叔| 地球的宇宙环境教学反思| 马樱花| 澳门风云3演员表| 尘封十三载全集免费观看| 假男假女 电影| 经伟| 大众故事1974意大利| 《猫女的诅咒》美国电影| 六年级五单元作文| 去2| 红日图片| 夜夜做新郎| 美娜个人资料简介| 妻子的电影|