近幾年,各行各業紛紛擁抱網際網路+,藉助雲計算、大數據等技術來實現生產效率的提升,與之相關的就是企業IT系統越來越複雜。IT系統規模愈大、運維管理精細化要求更高、運維採集指標更多、響應時間需求更短等挑戰接踵而來。面對大量運維數據,以及對數據的實時秒級分析處理要求,傳統IT系統和模式越來越難以滿足當前運維需求。
企業紛紛上雲 IT運維如何借力AI實現智能化
在過去,IT資源都是通過人工進行管理,需要經過手動定義系統網絡架構、配置並克隆虛擬機、配置OS、安裝資料庫等漫長的流程,才能夠使用,並且在部署過程中,人工操作易出錯。傳統運維壓力很大,疲於奔命和救火,必須要尋求改變,走向自動化、平台化、智能化。
在IT服務管理方面,藉助ITSM以及自動化技術可以有效提升管理效率。ITSM中的自動化工具幫助企業更高效地提高管理任務,大大縮短應用發布流程,提高IT效率,提升對IT需求的響應速度,有效節省運維、開發人員的工作時間。
在IT運維方面,Docker、OpenStack、Puppet等技術的流行,以及微服務、CI/CD、DevOps等理念的落地生根,自動化運維的發展迎來了小高潮。整體來看,自動化運維平台幫助提升了運維的效率,並減少了因人工疏忽和流程操作失誤而引起的運維故障。
重新定義IT運維
隨著企業加速自身業務網際網路化的進程,新業務和新場景不斷湧現,這就要求企業在IT架構方面進行與之適應的調整,對於開發的訴求也更多放到需求實現上面。企業的數位化程度越高,運維的管理難度也越大。
技術界逐漸催生出了服務化的軟體架構,以及持續交付過程,同時隨著業務體量快速膨脹,因服務化帶來的大量的應用管理、持續交付、監控、穩定性、成本控制等非功能性體系的建設和保障就需要有專門的團隊來做,這時對於運維的訴求也在悄然發生著變化。
在這個過程中,雲計算的發展改變了IT資源供給模式的同時也對運維管理提出了新的變革要求,傳統的網絡、硬體和系統維護的職責在逐漸被弱化,也在逼迫著運維的關注點從底層轉向應用和業務層面,現有運行制度和人員角色需要進行重新定位。
AI使能IT運維
隨著AI時代的到來,我們工作和生活中的一切都在被重新定義。企業在嘗試通過AI技術提高運維服務的有效性乃至預測性,同時降低成本,實現業務轉型。
在2016年,Gartner提出了AIOps的概念,並預測到2020年,AIOps的採用率將會達到50%。簡單來說,AIOps就是希望基於已有的運維數據(日誌、監控信息、應用信息等)並通過機器學習的方式來進一步解決在IT運維中通過自動化沒辦法解決的問題。
作為一種將算法集成到工具里的新型運維方式,AIOps可以幫助企業最大程度的簡化運維工作,把IT從耗時又容易出錯的流程中解放出來。傳統IT運維管理工具更為關注突發事件(即告警)、配置和性能,而AIOps則更加關注問題、分析和預測,二者可謂互相補充相得益彰。
有了AIOps,當IT出現故障隱患,運維人員不需要再等待系統發出故障告警,通過內置的機器學習算法以及大數據技術,就能自動發現系統的各類異常,從而實現從異常入手判斷故障發生的可能性、嚴重性和影響,依賴機器對數據的分析結果,判斷最佳的應對方案。
數據只有全面才能進行科學的決策,很多時候如果看到的日誌不全,或者拿到的監控數據不准,在做決策的時候肯定就會比較貿然。比如數據中心某業務鏈路出現問題,是不是要切換?數據是不是還能保持一致?這個時候在沒有確定的數據來支撐你決策之前,你做決策時都會感到比較忐忑,猶豫不前。
就目前來看,國內的百度、搜狗、阿里巴巴等網際網路廠商已經在探索嘗試AIOps,並且取得了不錯的效果。通過支持AIOps能力,平台能夠提供更大的分析調整自修復能力,更進一步提高IT效率。
如何從錯綜複雜的運維監控數據中得出我們所需要的信息和結果,一句話就是分辨和精煉。同時,確保業務和SLA服務級別,出現問題要及時響應、自動分析和優化,把處理的流程精簡和高效組合起來,讓問題匹配正確的場景,找到正確的人,在第一時間正確處理。
機器學習需要大量的數據來訓練,故障出現的形態是千奇百怪,對故障的歷史數據進行場景分類和標註,不斷用模式識別和數據來訓練機器識別和分析,然後讓機器自動準確判斷。
基於數據和模型來提高事件的處理能力。很多事件有的工程師處理的特別快,反之如果對這個故障不熟悉的人可能花費的時間就很長。這就需要構建一個策略知識庫,讓其他人來參考和學習,提高同類場景事件處理的能力。
我們以數據中心的管理與運維為例,數據中心的運維工作主要包括配置管理和監控,運維人員每天都要進行大量的模塊維護操作,這個過程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及時發現所有的故障,另一方面,這一過程中人為失誤的可能性不可避免。將人工智慧應用於數據中心的管理和控制,通過機器學習模型進行精細化管理,可以實現智能化運維的目標。
谷歌可以說是最早在數據中心的管理方面運用人工智慧技術的代表了,它使用人工神經網絡對大型數據中心的運行進行分析,對數據進行了收集和匯總(像數據中心基礎設施的耗電量、為達到一定製冷效果所用的水的量),通過人工智慧計算模型對數據中心的運行效率進行分析和評估,提出相應的改進數據中心運行效率的解決方案。
結語
AI使能下的IT運維目標就是減少對人的依賴,逐步信任機器,實現機器的自判、自斷和自決。技術在不斷進步,AI技術可以解決一些需要花費大量人力和時間才能解決的事情,但是AI不是一個很純粹的技術,它也需要結合具體的企業場景和業務,通過計算驅動和數據驅動,才能產生一個真正可用的產品。
AI下IT運維在企業的落地,不是一蹴而就的,是一個漸進和價值普及的過程。當前,IT運維已經處於變革的窗口期,可以預見在更高效和更多的平台實踐之後,AIOps將為整個IT領域注入更多新鮮和活力,在未來發展和壯大下去,成為引領潮流的重要性力量!