根據(jù)ISC剛剛發(fā)布的《互聯(lián)網(wǎng)發(fā)展報告2019》,截至2018年底,我國網(wǎng)民規(guī)模達(dá)到8.29億,互聯(lián)網(wǎng)普及率達(dá)59.6%;我國手機網(wǎng)民規(guī)模達(dá)8.17億,網(wǎng)民中使用手機上網(wǎng)的比例由2017年底的97.5%提升至2018年底的98.6%。移動互聯(lián)網(wǎng)的高度普及為業(yè)務(wù)的數(shù)字化奠定了基礎(chǔ),也為企業(yè)的業(yè)務(wù)創(chuàng)新提供了土壤。把企業(yè)的業(yè)務(wù)應(yīng)用看作羊只,那它們正在這片數(shù)字沃土上生長壯大。負(fù)責(zé)看護這些羊群的牧羊人,就是今天的運維人。
正如游牧讓羊群吃到新鮮草料,企業(yè)的業(yè)務(wù)增長也伴隨著技術(shù)環(huán)境的不斷遷移。彈性擴縮、提效降費的云計算平臺,是業(yè)務(wù)應(yīng)用的下一個理想牧場。要滿足激烈市場競爭帶來的業(yè)務(wù)高頻變更需求,順利應(yīng)對更加多元和不可控的用戶訪問量變化,云提供了比傳統(tǒng)物理環(huán)境更理想的基礎(chǔ)設(shè)施。企業(yè)的發(fā)展呼喚數(shù)字化轉(zhuǎn)型,而云將成為數(shù)字化業(yè)務(wù)的技術(shù)承載,是企業(yè)必然要經(jīng)歷的技術(shù)升級。
云中的達(dá)摩克利斯之劍——業(yè)務(wù)性能監(jiān)控
但在云的種種優(yōu)勢之下,有一柄高懸的達(dá)摩克利斯之劍。云架構(gòu)允許業(yè)務(wù)與技術(shù)解耦,為業(yè)務(wù)頻繁迭代創(chuàng)造可能;云的高度虛擬化實現(xiàn)了業(yè)務(wù)的獨立化,支持根據(jù)訪問量自由變更所調(diào)用的計算資源。但這種靈活性讓云中性能監(jiān)控的難度大大增加,可能導(dǎo)致故障的環(huán)節(jié)與因素也指數(shù)級上升。一旦故障發(fā)生就如同懸劍墜落,會對企業(yè)的正常運轉(zhuǎn)造成重創(chuàng);而云的封閉性讓故障的識別與排查難度大大提高,運維人員唯一可以依賴的只有云平臺控制器提供的比較單薄的性能監(jiān)控工具,如同以只手之力與風(fēng)雨相搏。
云中性能監(jiān)控的技術(shù)難點細(xì)究起來,根因在三:
1 業(yè)務(wù)上云前準(zhǔn)備不足
羅馬不是一天建成的,企業(yè)的信息系統(tǒng)也一樣。不同批次、不同技術(shù)架構(gòu)、不同供應(yīng)商搭建而成的業(yè)務(wù)應(yīng)用之間訪問關(guān)系錯綜復(fù)雜,未經(jīng)徹底梳理就遷移上云必然導(dǎo)致服務(wù)路徑的疏漏與錯配,帶來業(yè)務(wù)流程的執(zhí)行障礙,問題頻發(fā)。
2 運維自動化程度不足
云中業(yè)務(wù)應(yīng)用的技術(shù)底層高度虛擬化,使得運維要管理的對象從過去物理環(huán)境下的幾十、幾百變成成千上萬,已是「人肉運維」力所不逮;云平臺本身會依據(jù)業(yè)務(wù)訪問量自動對應(yīng)用進行變更與遷移,如果缺乏自動化的運維手段必然導(dǎo)致監(jiān)控盲區(qū)出現(xiàn),故障隱患大增。
3 監(jiān)控覆蓋與精度不足
傳統(tǒng)性能監(jiān)控的技術(shù)手段皆為侵入式,需要對業(yè)務(wù)應(yīng)用進行改造,在從開發(fā)到運維流暢打通敏捷迭代的云環(huán)境中無法滿足需求;監(jiān)控覆蓋不及時、監(jiān)控時間顆粒度粗,導(dǎo)致業(yè)務(wù)出現(xiàn)問題苗頭時無法及時發(fā)現(xiàn),雪崩效應(yīng)造成業(yè)務(wù)一潰千里。
Ready,Go!在BPC保障下自由馳騁云端
天旦業(yè)務(wù)性能管理產(chǎn)品BPC,7年潛心技術(shù)攻關(guān)、堅持自主研發(fā)掌握知識產(chǎn)權(quán)、被200余家銀行、證券、保險、大型企業(yè)等領(lǐng)域客戶廣泛認(rèn)可并深深喜愛,現(xiàn)已完成對主流云環(huán)境的技術(shù)適配,全力保障云中業(yè)務(wù)持續(xù)可用,助力企業(yè)順利完成數(shù)字化轉(zhuǎn)型。

早在2016年,天旦就已成功為金融客戶提供業(yè)務(wù)系統(tǒng)遷移上云的全過程保障,助力客戶成為國內(nèi)第一家業(yè)務(wù)整體上云的金融機構(gòu),具有非常重要的意義。天旦將這次里程碑式的上云經(jīng)驗進行深化研究,同時與之后持續(xù)服務(wù)客戶實現(xiàn)不同運營模式、不同技術(shù)架構(gòu)的業(yè)務(wù)上云實踐進行整合,將天旦的技術(shù)與經(jīng)驗以產(chǎn)品形態(tài)固化,為BPCgocloud在各種云環(huán)境下提供精準(zhǔn)實時告警提供了堅實基礎(chǔ)。BPC也因此提供了云中性能監(jiān)控三大難點的完善解決方案,成為企業(yè)業(yè)務(wù)上云的有力保障。
1 上云前梳理業(yè)務(wù)流程,建立評估基線
基于網(wǎng)絡(luò)旁路的BPC性能監(jiān)控?zé)o需應(yīng)用改造,可在一周內(nèi)完成傳統(tǒng)環(huán)境的監(jiān)控部署,通過自動服務(wù)路徑發(fā)現(xiàn)完成對業(yè)務(wù)拓?fù)潢P(guān)系的探索,并形成秒級刷新的路徑視圖。運維團隊基于BPC提供的量化指標(biāo)與系統(tǒng)架構(gòu)快照建立業(yè)務(wù)性能表現(xiàn)基線,用于上云過程中的性能保障與上云后的技術(shù)成果的量化評估;擁有PMPCertified®專業(yè)項目管理認(rèn)證的天旦客戶成功團隊提供完善無疏漏的上云項目管理,幫助客戶順利完成業(yè)務(wù)遷移目標(biāo),實現(xiàn)技術(shù)升級的項目規(guī)劃。
2 自動化遷移監(jiān)控部署,平滑過渡無盲點
應(yīng)對成千上萬的管理對象與難以預(yù)期的頻繁應(yīng)用變更,天旦開發(fā)了SDPM(SoftwareDefinedPerformanceManager,軟件定義的性能管理),實時地自定義BPCforCloud的相關(guān)服務(wù),讓性能監(jiān)控部署跟隨應(yīng)用變更實現(xiàn)自動化配置,杜絕人肉運維、大大提升運維效率。有了SDPM,BPCforCloud不僅解決了云中應(yīng)用熱遷移導(dǎo)致的數(shù)據(jù)流量變更問題,還實現(xiàn)了自動化的云中性能監(jiān)控批量部署,使云端遷移項目實現(xiàn)「邊遷移、邊監(jiān)控」,保障了業(yè)務(wù)保障的全程覆蓋。
SDPM用于監(jiān)控OpenStack的虛機狀況,在虛機發(fā)生漂移的時候自動更改ovs流表用來保證流表的規(guī)則有效性。在SDPM的加持下,BPCforCloud實現(xiàn)了實時監(jiān)測數(shù)據(jù)源的變化(如虛擬機的創(chuàng)建、終止和遷移),并自動根據(jù)變更來調(diào)整數(shù)據(jù)源鏡像;通過API與客戶的云平臺管理器集成,對服務(wù)路徑圖進行實時創(chuàng)建、刪除和修改,并自動調(diào)整設(shè)置系統(tǒng)告警。
3 高精度高實時的云中性能監(jiān)控
BPC基于網(wǎng)絡(luò)旁路的實時鏡像,全量捕獲的網(wǎng)絡(luò)流量在自主研發(fā)的報文協(xié)議解碼引擎中同步解碼,獲取每一筆交易的狀態(tài)參數(shù)與明細(xì)數(shù)據(jù),并將其整合為格式統(tǒng)一、對機器與人都可讀的互聯(lián)數(shù)據(jù)。旁路方式不增加業(yè)務(wù)系統(tǒng)負(fù)載,可以提供分鐘級、秒級、毫秒級等不同級別的實時性能指標(biāo);互聯(lián)數(shù)據(jù)則將應(yīng)用性能表現(xiàn)與業(yè)務(wù)實際狀況建立關(guān)聯(lián),提供逐筆交易的過程記錄追溯與明細(xì)查詢。
在完成對各類云環(huán)境的技術(shù)適配之后,BPC的各種深受用戶喜愛的功能將繼續(xù)在云環(huán)境下發(fā)揮強大功能:云圖智能告警提供場景化的告警配置與多維度、多指標(biāo)關(guān)聯(lián)的精準(zhǔn)告警;智能算法驅(qū)動的一鍵故障解析功能提供對故障發(fā)生節(jié)點的逐層、逐維度鉆取,準(zhǔn)確定位故障發(fā)生域。在業(yè)務(wù)頻繁變動的云環(huán)境下,BPC的高精度、高實時監(jiān)控能力將幫助運維部門快速適應(yīng)云的新工作方式,讓云環(huán)境的業(yè)務(wù)運維如傳統(tǒng)環(huán)境一樣自主可控。
全平臺制霸!BPC「看透」每一朵云
企業(yè)的業(yè)務(wù)側(cè)重不同,信息化建設(shè)程度不同,對計算資源的需求不同,導(dǎo)致在云平臺的建設(shè)與技術(shù)選項上千差萬別。應(yīng)對截然不同的云環(huán)境技術(shù)架構(gòu),BPC提供了多項模型、多種方式、多個層級的技術(shù)解決方案,可以順利穿透云的封閉結(jié)構(gòu)捕獲到流量數(shù)據(jù),滿足企業(yè)所選擇的任何云架構(gòu)下的業(yè)務(wù)性能監(jiān)控。

除了技術(shù)上主動適配,天旦還與各云平臺技術(shù)廠商建立深入的合作關(guān)系,共同測試BPC的監(jiān)控方案在不同版本、不同模型下的兼容性與采集效率,保證BPC提供完善、穩(wěn)定、可靠的監(jiān)控保障;并且通過API與云平臺控制器自動打通,以告警事件自動調(diào)用故障處理流程,極大縮短MTTR(平均故障處理時間),成為運維人完成云中業(yè)務(wù)保障的得力助手。
持續(xù)進化的BPC,為云的下一次技術(shù)變革做好儲備
云計算雖然還是新興技術(shù),但以容器和邊緣計算為代表的下一代虛擬化技術(shù)正嶄露頭角。技術(shù)嗅覺敏銳的天旦早已開始進行技術(shù)準(zhǔn)備。以容器集群為例,天旦開創(chuàng)性地利用Sidecar編程模型實現(xiàn)對容器化應(yīng)用的流量捕獲,使容器集群上的業(yè)務(wù)性能監(jiān)控成為可能。雖然更多企業(yè)仍然處于規(guī)劃云計算的階段,但天旦對于未來技術(shù)的應(yīng)對必須趕早超前,這樣才能像云中性能監(jiān)控一樣,在企業(yè)進行部署時就可提供技術(shù)完善、產(chǎn)品成熟的解決方案。
天旦還將對云環(huán)境的技術(shù)理解、業(yè)務(wù)遷移上云的方法論與實踐經(jīng)驗歸納濃縮成《云時代性能管理白皮書》。如果你正想要上云,或者你也正對云中性能監(jiān)控有所困惑,歡迎掃碼領(lǐng)取這份精華白皮書: