成人在线你懂的-成人在线免费小视频-成人在线免费网站-成人在线免费视频观看-日韩精品国产一区二区-日韩精品国产一区

掃一掃
關注微信公眾號

一文讀懂選擇數(shù)據(jù)湖還是數(shù)據(jù)倉庫
2022-10-24    數(shù)據(jù)驅(qū)動智能

  今天,每秒都在生成TB和PB的數(shù)據(jù),為這些海量數(shù)據(jù)集尋找存儲解決方案至關重要。復雜的機器和技術現(xiàn)在收集了令人難以置信的廣泛數(shù)據(jù)——每天超過2.5萬億字節(jié)!—來自設備傳感器、日志、用戶、消費者和其他地方。數(shù)據(jù)存儲并不像以前看起來那么簡單。在管理和存儲數(shù)據(jù)時,數(shù)據(jù)管理者需要考慮使用數(shù)據(jù)湖或數(shù)據(jù)倉庫作為存儲庫。

  隨著數(shù)據(jù)量、速度和種類的增加,選擇合適的數(shù)據(jù)平臺來管理數(shù)據(jù)從未像現(xiàn)在這樣重要。它應該是迄今為止?jié)M足我們需求的古老數(shù)據(jù)倉庫,還是應該是承諾支持任何類型工作負載的任何類型數(shù)據(jù)的數(shù)據(jù)湖?

  在這里,我們深入探討了這兩個平臺。

  數(shù)據(jù)湖

  數(shù)據(jù)湖是一個中央存儲庫,可以大量存儲所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。數(shù)據(jù)通常以原始格式存儲,無需首先進行處理或結(jié)構(gòu)化。在這種情況下,它可以針對手頭的目的進行優(yōu)化和處理,無論是交互式分析、下游機器學習或分析應用程序的儀表板。

  可以這樣想,數(shù)據(jù)湖就像一個大水體,比如說一個處于自然狀態(tài)的湖。數(shù)據(jù)湖是使用來自各種來源的數(shù)據(jù)流創(chuàng)建的,然后,多個用戶可以來到湖中對其進行檢查并取樣。數(shù)據(jù)湖的美妙之處在于每個人都在查看和操作相同的數(shù)據(jù)。消除多個數(shù)據(jù)源并在數(shù)據(jù)湖中擁有一個可引用的“黃金”數(shù)據(jù)集來保障組織內(nèi)的一致性,因為用于訪問組織中智能的任何其他下游存儲庫或技術都將同步。這很關鍵。使用這種集中的數(shù)據(jù)源,就不會從不同的孤島中提取數(shù)據(jù);組織中的每個人都有一個單一的事實來源。

  該模式為公司的分析生命周期提供了近乎無限的能力:

  攝取:數(shù)據(jù)以任何原始格式到達并存儲以供將來分析或災難恢復。公司通常會根據(jù)隱私、生產(chǎn)訪問以及將利用傳入信息的團隊來劃分多個數(shù)據(jù)湖。

  存儲:數(shù)據(jù)湖允許企業(yè)管理和組織幾乎無限量的信息。云對象存儲以較低的成本為大數(shù)據(jù)計算提供高可用性訪問。

  流程:借助云計算,基礎設施現(xiàn)在只需一個API調(diào)用即可。這是從數(shù)據(jù)湖中的原始狀態(tài)獲取數(shù)據(jù)并格式化以與其他信息一起使用的時候。這些數(shù)據(jù)也經(jīng)常使用高級算法進行聚合、合并或分析。然后將數(shù)據(jù)推回數(shù)據(jù)湖以供商業(yè)智能或其他應用程序存儲和進一步使用。

  消費:當我們談論自助服務數(shù)據(jù)湖時,消費通常是生命周期中的階段。此時,數(shù)據(jù)可供業(yè)務和客戶根據(jù)需要進行分析。根據(jù)復雜用例的類型,最終用戶還可以間接或直接以預測(預測天氣、財務、運動表現(xiàn)等)或感知分析(推薦引擎、欺詐檢測、基因組測序、ETC)。

  數(shù)據(jù)湖支持原生流,數(shù)據(jù)流在其中被處理并在到達時可用于分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。

  數(shù)據(jù)倉庫

  數(shù)據(jù)倉庫發(fā)明于1980年底,專為業(yè)務應用程序生成的高度結(jié)構(gòu)化數(shù)據(jù)而設計。它將組織的所有數(shù)據(jù)集中在一起并以結(jié)構(gòu)化方式存儲。它通常用于連接和分析來自異構(gòu)來源的數(shù)據(jù)。

  數(shù)據(jù)倉庫架構(gòu)依賴于數(shù)據(jù)結(jié)構(gòu)來支持高性能的SQL(結(jié)構(gòu)化查詢語言)操作。數(shù)據(jù)倉庫是專門為基于SQL的訪問而構(gòu)建和優(yōu)化的,以支持商業(yè)智能,但為流分析和機器學習提供有限的功能。它們受到ETL要求的限制,需要在存儲數(shù)據(jù)之前對其進行預處理。

  數(shù)據(jù)倉庫在數(shù)據(jù)用于分析之前需要順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效率低下。一些數(shù)據(jù)倉庫支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。它支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進行了優(yōu)化。

  數(shù)據(jù)倉庫以專有格式存儲數(shù)據(jù)。一旦數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,對該數(shù)據(jù)的訪問僅限于SQL和數(shù)據(jù)倉庫提供的自定義驅(qū)動程序。一些較新的數(shù)據(jù)倉庫支持半結(jié)構(gòu)化數(shù)據(jù),例如JSON、Parquet和XML文件;與結(jié)構(gòu)化數(shù)據(jù)集相比,它們對此類數(shù)據(jù)集的支持有限且性能下降。數(shù)據(jù)倉庫不能完全支持存儲非結(jié)構(gòu)化數(shù)據(jù)。

  數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的區(qū)別

  數(shù)據(jù)倉庫和商業(yè)智能工具支持歷史數(shù)據(jù)的報告和分析,而數(shù)據(jù)湖支持利用數(shù)據(jù)進行機器學習、預測和實時分析的新用例。

 
  雖然一些數(shù)據(jù)倉庫擴展了基于SQL的訪問以提供機器學習功能,但它們不提供原生支持來運行廣泛可用的程序化數(shù)據(jù)處理框架,例如ApacheSpark、Tensorflow等。

  相比之下,數(shù)據(jù)湖是機器學習用例的理想選擇。它們不僅提供基于SQL的數(shù)據(jù)訪問,還通過Python、Scala、Java等語言為ApacheSpark和Tensorflow等編程分布式數(shù)據(jù)處理框架提供原生支持。

  數(shù)據(jù)倉庫需要在數(shù)據(jù)用于分析之前順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對于流式分析效率低下。一些數(shù)據(jù)倉庫支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。這種流到批處理的轉(zhuǎn)換增加了數(shù)據(jù)到達與用于分析之間的時間,使得數(shù)據(jù)倉庫不適用于多種形式的流分析。


  數(shù)據(jù)湖支持本地流式傳輸,其中數(shù)據(jù)流在到達時被處理并可供分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。

  數(shù)據(jù)倉庫支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對快速性能進行了優(yōu)化。

  相比之下,對于需要持續(xù)數(shù)據(jù)工程的用例,數(shù)據(jù)湖異常強大。在數(shù)據(jù)湖中,ETL的瀑布方法被迭代和連續(xù)的數(shù)據(jù)工程所取代。可以通過SQL和編程接口迭代地訪問和轉(zhuǎn)換數(shù)據(jù)湖中的原始數(shù)據(jù),以滿足用例不斷變化的需求。這種對持續(xù)數(shù)據(jù)工程的支持對于交互式分析和機器學習至關重要。

  揭穿關于數(shù)據(jù)湖和數(shù)據(jù)倉庫的三大神話

  讓我們解決一些關于兩種流行的數(shù)據(jù)存儲類型的常見誤解:

  誤區(qū)一:只需要數(shù)據(jù)湖或數(shù)據(jù)倉庫中的一個

  如今,經(jīng)常聽到人們談論數(shù)據(jù)湖和數(shù)據(jù)倉庫,好像企業(yè)必須選擇其中一個。但現(xiàn)實情況是,數(shù)據(jù)湖和數(shù)據(jù)倉庫服務于不同的目的。雖然兩者都提供數(shù)據(jù)存儲,但它們使用不同的結(jié)構(gòu),支持不同的格式,并針對不同的用途進行了優(yōu)化。通常,公司可能會從使用數(shù)據(jù)倉庫和數(shù)據(jù)湖中受益。

  數(shù)據(jù)倉庫最適合希望為商業(yè)智能分析操作系統(tǒng)數(shù)據(jù)的企業(yè)。數(shù)據(jù)倉庫在這方面工作得很好,因為存儲的數(shù)據(jù)是結(jié)構(gòu)化、清理和準備分析的。同時,數(shù)據(jù)湖允許企業(yè)以任何格式存儲數(shù)據(jù)以用于幾乎任何用途,包括機器學習(ML)模型和大數(shù)據(jù)分析。

  誤區(qū)2:數(shù)據(jù)湖是流行趨勢,數(shù)據(jù)倉庫不是

  人工智能(AI)和ML代表了一些增長最快的云工作負載,組織越來越多地轉(zhuǎn)向數(shù)據(jù)湖來幫助確保這些項目的成功。由于數(shù)據(jù)湖允許存儲幾乎任何類型的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)而無需事先準備或清理,因此組織能夠保留盡可能多的潛在價值以供將來使用,未指定使用。此設置非常適合更復雜的工作負載,例如尚未確定具體數(shù)據(jù)類型和用途的機器學習模型。

  數(shù)據(jù)倉庫可能是這兩種選擇中更為人所知的一種,但數(shù)據(jù)湖和類似類型的存儲基礎設施可能會隨著數(shù)據(jù)工作負載的趨勢而繼續(xù)流行。數(shù)據(jù)倉庫適用于某些類型的工作負載和用例,而數(shù)據(jù)湖代表了服務于其他類型工作負載的另一種選擇。

  誤區(qū)三:數(shù)據(jù)倉庫易于使用,而數(shù)據(jù)湖很復雜

  數(shù)據(jù)湖需要數(shù)據(jù)工程師和數(shù)據(jù)科學家的特定技能來分類和利用其中存儲的數(shù)據(jù)。數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì)使得那些不了解數(shù)據(jù)湖如何工作的人更不容易訪問它。

  但是,一旦數(shù)據(jù)科學家和數(shù)據(jù)工程師構(gòu)建了數(shù)據(jù)模型或管道,業(yè)務用戶通常可以利用與流行業(yè)務工具的集成(自定義或預構(gòu)建)來探索數(shù)據(jù)。同樣,大多數(shù)業(yè)務用戶通過連接的商業(yè)智能(BI)工具訪問存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)。在第三方BI工具的幫助下,業(yè)務用戶應該能夠訪問和分析數(shù)據(jù),無論該數(shù)據(jù)存儲在數(shù)據(jù)倉庫還是數(shù)據(jù)湖中。

  構(gòu)建現(xiàn)代數(shù)據(jù)平臺的原則

  盡量減少數(shù)據(jù)平臺中人員、網(wǎng)絡和磁盤操作的影響。雖然人類永遠無法像計算機一樣快,但網(wǎng)絡和磁盤操作是客觀問題。為了減少這些問題的影響,避免在各處復制數(shù)據(jù),加強平臺讀取和處理來自不同位置的數(shù)據(jù)的能力,包括事務性、發(fā)布/子系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng),而無需當天移動。構(gòu)建現(xiàn)代數(shù)據(jù)平臺的原則是:

  把事情簡單化,不要過度架構(gòu)或過度設計;

  為正確的工作使用正確的工具;

  讓用例決定你應該使用什么;

  使用云進行擴展;

  將數(shù)據(jù)與上下文分開,這將使數(shù)據(jù)能夠用于多個用例。

  數(shù)據(jù)湖和數(shù)據(jù)倉庫:用例

  DataLake已經(jīng)成為一個強大的平臺,企業(yè)可以使用它來管理、挖掘大量非結(jié)構(gòu)化數(shù)據(jù)并將其貨幣化,以獲得競爭優(yōu)勢。因此,公司對數(shù)據(jù)湖平臺的采用率急劇增加。

  在這種利用大數(shù)據(jù)的熱潮中,一直存在一種誤解,即DataLake旨在取代數(shù)據(jù)倉庫,而實際上,DataLake旨在補充傳統(tǒng)的關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。

  數(shù)據(jù)倉庫適用于某些類型的工作負載和用例,而數(shù)據(jù)湖代表了服務于其他類型工作負載的另一種選擇。

  用例應該驅(qū)動數(shù)據(jù)平臺架構(gòu)。如果您的用例需要速度、具有已知的數(shù)據(jù)模型、完全結(jié)構(gòu)化或非常接近它,那么SQL數(shù)據(jù)倉庫就足夠了。但是,如果您需要及時靈活地對數(shù)據(jù)進行建模并將其用于多種工作負載,您應該使用數(shù)據(jù)湖。

  組織將依靠多種技術的最佳解決方案,包括數(shù)據(jù)倉庫和數(shù)據(jù)湖。最終,組織的選擇需要平衡管理多種技術的復雜性和TCO與以高性能和經(jīng)濟高效的方式運行更多種類的工作負載的能力。

  未來該如何選擇

  我們現(xiàn)在處于這樣一個階段,我們不僅可以使用數(shù)據(jù)來回顧過去,還可以了解現(xiàn)在,甚至可以預測未來。數(shù)據(jù)和工具將不斷發(fā)展,以幫助我們幾乎實時地到達那里。

  將數(shù)據(jù)與上下文分開。進來的數(shù)據(jù)不一定有你想用它的上下文。所以,在弄清楚你想用它做什么之前,把將數(shù)據(jù)獲取到一個位置的想法分開。因為實際上,您將對該數(shù)據(jù)進行多種用途。因此,您永遠不知道您可以將這些數(shù)據(jù)用于什么用途。因此,如果您首先獲取數(shù)據(jù),然后弄清楚您想用它做什么,通常會導致使用這些數(shù)據(jù)產(chǎn)生更積極的結(jié)果。

  數(shù)據(jù)倉庫供應商正在逐漸從他們現(xiàn)有的模型轉(zhuǎn)向數(shù)據(jù)倉庫和數(shù)據(jù)湖模型的融合。同樣,數(shù)據(jù)湖的供應商現(xiàn)在正在擴展到數(shù)據(jù)倉庫領域,雙方正在趨同。例如,BigQuery現(xiàn)在允許組織在AmazonS3上查詢數(shù)據(jù)。同樣,Databricks和Qubole等數(shù)據(jù)湖平臺現(xiàn)在正在果斷地轉(zhuǎn)向數(shù)據(jù)倉庫用例。您可以使用ACID屬性、事務一致性、快照等來管理存儲,并將查詢引擎更多地與存儲管理集成,為客戶創(chuàng)建湖倉模式。數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的融合不僅僅是在談論,而是正在現(xiàn)實中應用。

熱詞搜索:數(shù)據(jù)庫

上一篇:實現(xiàn)商業(yè)智能的三個常見挑戰(zhàn)
下一篇:最后一頁

分享到: 收藏
主站蜘蛛池模板: 孔令辉简历及个人资料| 奇幻旅程| 秀人网门户首页| 西藏卫视在线直播| 宋学士濂文言文翻译| 电影《皮囊》| 农村gaygayxxx| 电视节目预告表| 朝雪录电视剧免费观看| 长句变短句的例题| 性欲满载| 电影《男宠》在线观看| 敦君和女朋头| 基础综合英语邱东林电子版答案| 可爱美女跳舞蹈视频| 李玟雨| 池田夏希| department什么意思| 最近,妹妹的样子有点怪| 张晓海个人资料| 父子刑警| 大海歌词 张雨生| 常蓝天| 扎职| 电影田螺姑娘| 徐有容| 秀人网门户官网| tvb翡翠台直播| 田教授的28个保姆演员表| 四川不锈钢水箱制造厂| 双重欲望| 马明威| 杂牌摄像头软件通用app| 雷牧演的所有电视剧和电影| 当代大学德语2答案| 热血番| 李采潭全部系列未删减| 开心麻花电影| 楚青丝完美人生免费阅读| 意外的春天| 美女主播跳舞舞蹈视频|