
云技術對現代企業來說變得比以往任何時候都更加重要。94%的企業投資于云基礎設施,因為它提供的好處。
據估計,使用云的公司中有87%依賴于混合云環境。但是,一些公司使用其他云解決方案,這也需要討論。
如今,大多數公司的云生態系統包括基礎設施、合規性、安全性和其他方面。這些基礎架構可以位于混合云或多云中。此外,多云系統根據組織需求從不同供應商處采購云基礎設施。
混合云戰略有很多好處,但也應該討論多云基礎架構的好處。多云基礎架構意味著當您從不同供應商處獲得技術時,這些供應商可以是私有的,也可以是公共的。混合云系統是結合不同云類型的云部署模型,同時使用本地硬件解決方案和公共云。
您可以安全地使用ApacheKafka集群,使用各種云服務(如Amazon的S3等)將數據從本地硬件解決方案無縫移動到數據湖。但請記住一件事,您必須在云集群中復制主題,或者您必須開發一個自定義連接器來從云讀取和復制到應用程
不同ApacheKafka架構的五個主要比較
1.Kafka和ETL處理
可能將ApacheKafka用于高性能數據管道、流式傳輸各種分析數據或使用Kafka運行公司關鍵資產,但您是否知道您也可以使用Kafka集群在多個系統之間移動數據.
這是因為您通常會看到Kafka生產者發布數據或將其推送到Kafka主題,以便應用程序可以使用數據。但是Kafka消費者通常是定制的應用程序,它們將數據饋送到目標應用程序中。因此,您可以使用您的云提供商的工具,這些工具可以讓您創建將提取和轉換數據的作業,同時還為您提供加載ETL數據的優勢。
Amazon的AWSGlue就是這樣一種工具,它允許使用來自ApacheKafka的數據和Amazon管理的ApacheKafka(MSK)流。它將使您能夠快速轉換數據結果并將其加載到AmazonS3數據湖或JDBC數據存儲中。
2.架構設計
在大多數系統案例中,第一步通常是構建一個響應迅速且可管理的ApacheKafka架構,以便用戶可以快速查看這些數據。例如-如果您應該處理和記錄具有許多關鍵數據集的文件,例如員工保險單表格。然后,您可以使用各種云工具來提取數據以進行進一步處理。
您還可以配置AWSGlue等基于云的工具,以連接您的本地云硬件并建立安全連接。三步ETL框架作業應該可以解決問題。如果您不確定這些步驟,那么它們是:步驟1:創建工具與本地ApacheKafka數據存儲源的連接。步驟2:創建數據目錄表。第3步:創建ETL作業并將該數據保存到數據湖。
3.連接
使用預定義的Kafka連接,您可以使用AWS膠水等各種云工具在數據目錄中創建安全的安全套接字層(SSL)連接。此外,您應該知道這些連接始終需要自簽名SSL證書。
此外,您可以采取多個步驟從信息中獲得更多價值。例如,您可以使用QuickSight等各種商業智能工具將數據嵌入到內部Kafka儀表板中。然后另一個團隊成員可以使用事件驅動架構來通知管理員并執行各種下游操作。盡管在處理特定數據類型時都應該這樣做,但這里的可能性是無窮無盡的。
4.安全組
當您需要像AWSGlue這樣的云工具在其組件之間來回通信時,您需要為所有傳輸控制協議(TCP)端口指定一個具有自引用入站規則的安全組。它將使您能夠將數據源限制在同一個安全組;從本質上講,它們都可以為所有流量預先配置一個自引用入站規則。然后,您需要設置ApacheKafka主題,引用這個新創建的連接,并使用模式檢測功能。
5.數據處理
完成ApacheKafka連接并創建作業后,您可以格式化源數據,稍后您將需要這些數據。您還可以使用各種轉換工具來處理您的數據庫。對于此數據處理,請借助您之前創建的ETL腳本,遵循上述三個步驟。
結論
ApacheKafka是一種開源數據處理軟件,在不同的應用程序中有多種用途。使用上述指南確定適合您的存儲類型。?