
傳統(tǒng)企業(yè)IT時代,企業(yè)IT運維管理服務(wù)遵循基于國際ITIL標(biāo)準(zhǔn)的ITSM服務(wù)管理方法論及相關(guān)工具,IBM、HP、BMC和CA是ITSM“四大天王”。隨著云計算對于企業(yè)IT進行了重新洗牌,以DevOps為代表的敏態(tài)IT對于以穩(wěn)態(tài)IT為代表的ITSM方法論及其產(chǎn)業(yè)形成了巨大的沖擊。作為IT服務(wù)管理的龍頭企業(yè),IBM在帶領(lǐng)企業(yè)向云轉(zhuǎn)型的過程中,也加碼了IT運維管理向混合云與IT環(huán)境的轉(zhuǎn)型。

(IBM副總裁、技術(shù)支持服務(wù)部(TSS)大中華區(qū)總經(jīng)理潘軍)
“今天,企業(yè)面臨越來越多的挑戰(zhàn),既要保證安全生產(chǎn),又要給業(yè)務(wù)提供更大的靈活性。為了滿足這些需求,企業(yè)積極采用AI、混合云的新技術(shù),這讓其IT架構(gòu)和環(huán)境也變得日益復(fù)雜和多元”,IBM副總裁、技術(shù)支持服務(wù)部(TSS)大中華區(qū)總經(jīng)理潘軍表示,“IBM能為企業(yè)提供集成多品牌、一站式、高品質(zhì)服務(wù),幫助企業(yè)充分利用現(xiàn)有投資,極大程度地保障業(yè)務(wù)連續(xù)性,也為其業(yè)務(wù)創(chuàng)新提供強有力的支持。”
基于新的運維方法論和智能運維平臺,IBM為眾多金融、通信、制造行業(yè)客戶提供多品牌一體化運維服務(wù)、開源軟件支持服務(wù)與開源治理咨詢服務(wù)、機房巡檢機器人方案,以及運用AR技術(shù)提供遠(yuǎn)程服務(wù)等,創(chuàng)造了大量混合云運維管理的成功案例。特別是在疫情期間,IBM支持工程師克服了種種困難,保障了企業(yè)業(yè)務(wù)的連續(xù)性,堅定了企業(yè)加速向云轉(zhuǎn)型的信心。
CSMO:混合云運維方法論
異常復(fù)雜的混合云環(huán)境為企業(yè)IT運維帶來了極大的挑戰(zhàn),而在數(shù)字化轉(zhuǎn)型下的企業(yè)業(yè)務(wù)向在線模式轉(zhuǎn)型,需要24小時不間斷保障業(yè)務(wù)在線運營,同時還要保障業(yè)務(wù)APP的響應(yīng)時間必須達(dá)到用戶體驗要求——業(yè)務(wù)APP一旦延時響應(yīng)用戶的點擊和業(yè)務(wù)請求,這就意味著新型“宕機”——用戶很有可能因為幾秒的延時而停止購買甚至轉(zhuǎn)向其它品牌。IBM在很早期就意識到了數(shù)字化時代帶給企業(yè)IT運維的新挑戰(zhàn),并提出了新的方法論:CSMO。

(CSMO的主要組成方法論,圖片來源:IBM)
潘軍介紹,IBM在云時代的新運維方法論叫做CSMO(CloudServiceManagementandOperations),這個方法論有四個主要的來源:第一是ITIL特別是ITIL4,ITIL4是國際IT服務(wù)標(biāo)準(zhǔn)在新時代的最新版本,也是面向敏態(tài)IT的全新版本,它在囊括了ITILV3的特色基礎(chǔ)上加入了對于DevOps等的支持;其次是敏態(tài)IT運維方法論SRE(SiteReliabilityEngineering,站點可靠性工程),這是互聯(lián)網(wǎng)及公有云的運維服務(wù)方法論;第三是InfrastructureasaCode即將基礎(chǔ)設(shè)施自動化過程、運維以及全球最佳實踐和案例等進行整合;第四是加強了運維與開發(fā)的關(guān)聯(lián),將IT服務(wù)管理的組織、文化、流程與DevOps進行結(jié)合。
CSMO出現(xiàn)的背景是企業(yè)IT運維在DevOps時代需求下有了新的發(fā)展:之前的ITIL/ITSM側(cè)重于軟件應(yīng)用發(fā)布后的運維,而DevOps要求在DevOps全生命周期都要融入運維;之前ITIL/ITSM下的運維團隊經(jīng)常與開發(fā)團隊相隔離而獨立工作,而DevOps要求開發(fā)團隊也將運維工作視為自己工作的一部分;之前的ITIL/ITSM主要為流程驅(qū)動,而DevOps則強烈依賴于在所有階段都嵌入自動化的能力。IBM為CSMO提供了實踐指南,這是一套用于設(shè)計、實施以及持續(xù)改進企業(yè)運維管理流程的方法組合,包括各類角色分工、流程及流程定義以及考核、實現(xiàn)和支持工具等。
ChatOps是CSMO的一個特色。ChatOps將開發(fā)工具、運維工具和相關(guān)流程都集成到一個協(xié)同平臺上,不同團隊可以高效、輕松地管理工作流。ChatOps按時間線保持了團隊溝通的信息流,提供了團隊溝通的記錄并將所有人都更新到最新的狀態(tài),以避免信息的重復(fù)。ChatOps可優(yōu)化運維團隊與開發(fā)團隊的協(xié)同,提升每種角色的工作透明度,將相關(guān)信息推送給解決問題的工程師,而無需工程師耗費時間和精力到處找相關(guān)信息。ChatOps還將服務(wù)管理與DevOps工具都集成到Chat協(xié)同平臺上,這樣團隊就無需來回切換不同的場景和工具。ChatOps還提供了聊天機器人,可回答各類問題以及遠(yuǎn)程執(zhí)行指令。
潘軍強調(diào),今天新的IBM運維方法論,從方法、工具、流程等方面結(jié)合傳統(tǒng)運維和混合云的要求,是與時俱進的IT運維服務(wù)方法論。而IBMTSS就是在該方法論的指導(dǎo)下,用工具和流程幫助客戶在混合云和AI的環(huán)境中,更好地進行運維和服務(wù)保障。
AIOps:加碼智能運維
在混合云環(huán)境中,傳統(tǒng)的運維監(jiān)控方式正在發(fā)生巨變。由于缺乏有效的系統(tǒng)洞察,運維團隊很難在運維事件發(fā)生之前進行預(yù)測或獲得告警。而采用AI技術(shù)的IT運維,則從運維工單、指標(biāo)、日志等資源中獲得數(shù)據(jù),再運用深度學(xué)習(xí)等AI技術(shù)對數(shù)據(jù)進行分析,從而獲得對于系統(tǒng)的洞察,進而用于運維流程中,為運維團隊提供專業(yè)指導(dǎo)。
潘軍表示,AIOps即智能化運維,這是一個旅程,橫向是從流程化、集中式的ITIL向分布式DevOps的轉(zhuǎn)變,縱向是從傳統(tǒng)運維文化角度進行敏捷轉(zhuǎn)型。該轉(zhuǎn)型分為四個階段:首先是標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化是實現(xiàn)運維自動化的前提;其次是響應(yīng),強調(diào)實時運維數(shù)據(jù)分析與洞察;第三是預(yù)測,即在實時數(shù)據(jù)分析的基礎(chǔ)上,實現(xiàn)動態(tài)洞察和更新分析;第四是主動預(yù)防,即進一步實現(xiàn)事故預(yù)測與告警,進行主動式預(yù)防。

(AIOps四階段,圖片來源:IBM)
IBM提供了AIOps實踐指南,將IBM運維團隊運用AI技術(shù)于運維流程的實踐進行了總結(jié),包括:收集運維數(shù)據(jù),監(jiān)控應(yīng)用并收集數(shù)據(jù)以檢測性能和故障等;組織運維數(shù)據(jù),用大數(shù)據(jù)工具和相關(guān)概念對收集的運維數(shù)據(jù)進行治理,將這些數(shù)據(jù)組成不同的邏輯組或數(shù)據(jù)集,以便于后續(xù)AI模型分析;采用數(shù)據(jù)模型對數(shù)據(jù)進行分析,對運維數(shù)據(jù)集選用合適的AI模型,包括深度學(xué)習(xí)和機器學(xué)習(xí)等,從而獲得最準(zhǔn)確的洞察及預(yù)測;將AI擴展到運維流程中,使用協(xié)同工具或數(shù)據(jù)面板發(fā)布AI模型分析的結(jié)果等。
IBMTSS借助IBMSupportInsight、WatsonAIOps、Ansible等工具,幫助企業(yè)實現(xiàn)從被動到主動、從手工到自動、從經(jīng)驗到數(shù)據(jù)驅(qū)動的運維轉(zhuǎn)變,共建主動性、預(yù)測性和深度洞察智能運維體系。TSS也改變了以往的工作模式,以各種創(chuàng)新的方式為客戶提供更加智能的服務(wù),比如通過AR眼鏡看到用戶設(shè)備信息,進行遠(yuǎn)程巡檢、故障診斷和修復(fù),甚至通過巡檢機器人完成工作。同時,IBMTSS團隊可以通過巡檢機器人收集到的機房環(huán)境信息,例如空調(diào)出風(fēng)量、溫度等指標(biāo),反饋給管理系統(tǒng),為客戶機房節(jié)能減排提供有力的數(shù)據(jù)支撐。
例如,IBMTSS為某金融客戶提供機房巡檢機器人方案,包括微環(huán)境管理、節(jié)能管理、日常巡檢、隨工檢查、資產(chǎn)容量管理等。不僅提升了效率,在疫情等突發(fā)事件的時候發(fā)揮了巨大的作用,也為數(shù)據(jù)中心的運維工作提供了有力支撐。通過機器人持續(xù)的數(shù)據(jù)收集對整個數(shù)據(jù)中心的能耗、容量、利用率有了更深入的洞察,為后續(xù)節(jié)能減排、優(yōu)化基礎(chǔ)設(shè)施奠定了基礎(chǔ)。
多品牌統(tǒng)一運維、解決“混合”難題
在企業(yè)向混合云轉(zhuǎn)型的過程中,出現(xiàn)了傳統(tǒng)IT與混合多云交雜的新環(huán)境。企業(yè)不僅需要運維管理主機、小型機、存儲與網(wǎng)絡(luò)等傳統(tǒng)IT資產(chǎn),還要管理DevOps環(huán)境中出現(xiàn)的各類新興開源軟件,此外還有日益嚴(yán)峻的安全挑戰(zhàn)和監(jiān)管要求等。為了幫助企業(yè)更好的應(yīng)對分散、復(fù)雜的多云環(huán)境,高效利用資源,高品質(zhì)地保障業(yè)務(wù)連續(xù)性,IBMTSS為企業(yè)提供了集成、全生命周期、一站式多品牌運維服務(wù),為企業(yè)向混合云轉(zhuǎn)型“托底”。
IBM多品牌統(tǒng)一運維服務(wù)同時支持IBM主機、Power和存儲設(shè)備和軟件以及非IBM第三方商業(yè)軟硬件,并對超過245種開源軟件提供企業(yè)級支持,包括開源數(shù)據(jù)庫、開源中間件、應(yīng)用運行環(huán)境、操作系統(tǒng)和各類平臺組件等。IBM對全球266家采用該服務(wù)的客戶進行了調(diào)研,結(jié)果顯示:在三年內(nèi)IBM為這些組織平均帶來了310萬美元的凈收益;通過簡化與IBM的硬件和軟件支持合同,IT支持支出減少25%。
例如,IBMTSS為某大型銀行全球數(shù)據(jù)中心提供多品牌一體化運維服務(wù),通過簡化與統(tǒng)一各種硬件和軟件支持合同,為其減少了25%的IT維護和支持開支;通過使用IBM多品牌一體化運維,減少了20%與IT管理相關(guān)的任務(wù)所耗費的時間;通過與一家供應(yīng)商整合IT支持,減少了20%用于供應(yīng)商關(guān)系管理的時間。同時,這些服務(wù)也創(chuàng)造了很多非量化收益,包括延長硬件的使用壽命,節(jié)省或推遲了資本支出,減少平均修復(fù)時間(MTTR),避免了大量的事故或停機,提高可用性。
在開源支持方面,作為主流開源組織的頂級贊助商和貢獻(xiàn)者,IBM一直與開源生態(tài)系統(tǒng)有深入的合作關(guān)系,TSS早在2020年開始為客戶提供從咨詢治理到托底支持的全方位開源解決方案服務(wù),其服務(wù)保障與服務(wù)質(zhì)量幾乎等同于商業(yè)軟件的服務(wù)級別。在中國市場,2021年初,IBM進入信通院第一批開源供應(yīng)商名錄,7月成為信通院認(rèn)證的4家白金合作伙伴之一,兩年的時間已經(jīng)為各行各業(yè)的客戶提供了開源服務(wù)。

(IBM支持工程師在疫情期間仍堅持工作)
目前,IBM多品牌統(tǒng)一運維服務(wù)覆蓋了98%的中國主要城市,在中國有約1000名具備原廠工程師認(rèn)證的IT工程師在一線為企業(yè)提供7*24小時服務(wù)。值得一提的是,在疫情期間IBM支持工程師仍保證了“7*24小時服務(wù)”的承諾。例如,上海剛剛爆發(fā)疫情苗頭的3月底,TSS支持大銀行和鐵路等重要行業(yè)的十多位工程師扛起行軍床、背上方便面,一頭扎進客戶數(shù)據(jù)中心一線,在兩個月的時間里為上海的客戶進行了130多次緊急維修;而在去年7月,鄭州遭遇特大暴雨,大水還沒消退,TSS一位工程師便使用沖鋒舟將客戶需要的備件及時送到現(xiàn)場,另一位工程師則在高架橋上徒步6公里到達(dá)客戶現(xiàn)場……
總結(jié)而言:疫情加速了企業(yè)向云轉(zhuǎn)型的進程,而混合云將是企業(yè)IT的新形態(tài)。基于云的數(shù)字化業(yè)務(wù)對于企業(yè)IT支持運維服務(wù)提出了全新的挑戰(zhàn),也對IT支持運維服務(wù)商提出了全新要求。IBMTSS在混合云服務(wù)管理與運維方法論和AIOps智能運維平臺的支撐下,以多品牌一體化運維服務(wù)、開源軟件支持服務(wù)與開源治理咨詢服務(wù)等,為混合云的“長治久安”打底,創(chuàng)造了混合云服務(wù)管理與運維的新樣板。