鯨品堂|AIOps在業務受理中的(de)應用

2021-12-14 126

AIOps,即 Artificial Intelligence for IT Operations,智能(néng)運維,將人工智能應用於運維領域,基於已有的運維數據(日誌、監控信(xìn)息、應用信息等),通過機器學習的方式來進一步解決運維沒辦法解決的問題。


早期的運維工作大部(bù)分是由運維(wéi)人員完成的,這(zhè)被(bèi)稱為手工運維或人肉運維(wéi)。很明顯,在(zài)互聯(lián)網業(yè)務快速擴張、人力成本高企的時代,這種落後(hòu)的(de)生產方式難以維係。


01  現(xiàn)狀


從BSS3.0到極簡受理,在AIOps領(lǐng)域上(shàng)我們是怎麽摸爬滾打一步步迭代(dài)的呢?


回到(dào)最初的異常處(chù)理(lǐ)方案:《BSS3.0-係統優化提升-異常編碼規範與異常處理(lǐ)方案》,其(qí)流程如下:圖片關鍵(jiàn)詞圖片關鍵詞


圖片關鍵詞


通過字典識別異常,查詢日誌,然後(hòu)定位(wèi)問題。由於業務發展、人員迭(dié)代原因,上述流程遠(yuǎn)遠不夠:



日誌規範沒有嚴格執行:編碼規範的落實沒有監督、各中心代碼沒有按規範(fàn)落實、異常編碼的定(dìng)義、調用並未遵(zūn)循規範。


邊界模(mó)糊問(wèn)題找不到人:規範定義業務沒(méi)有區分角(jiǎo)色(sè),營業員(yuán)可以看,運維人員可以看(kàn),開發也可以看。當前由運維(wéi)人員管理,他必(bì)須了解掌握所有錯誤,才能做出準確的判斷。


有沉澱每次都是新問題:運維事務沒有反饋(kuì),沒(méi)有總結。操作成果沒有沉澱,沒有歸檔(dàng)傳承下(xià)來。


靜態字典:隻能解釋老場景,識別不了新情況,也經常(cháng)存在人工維護缺失的問題。


被動防(fáng)禦不能主動“自愈”:人(rén)肉運維,沒有自動化運維手段。


02  受理(lǐ)運維智能化方向(xiàng)


為解決現狀存在的問題,我們在業務係統改造過程中,引入了AI智能識別技術。但是(shì)AI的引入不是(shì)推翻重來,而是兼具業務和AI兩方麵視野。要使AIOps服務能力與受理係統、運維流(liú)程、專家經(jīng)驗緊密結合在一起,從而更精準地定位、更有效地解決受理領域的運維問題。


>>>>

巨大挑戰


受理業務(wù)複(fù)雜性與相(xiàng)應需求(qiú)越來越多。特別(bié)是分布式架(jià)構到來後,一些運維要求,如微(wēi)服務、中間件、分布式給運維管理帶來了巨大的(de)挑戰。單純增(zēng)加人力(lì)已(yǐ)經滿足不了現在的運維要求。


>>>>

儲(chǔ)備遠遠不夠


當前運維人員90%的時間都用來識(shí)別發現故(gù)障的原因。與此同時(shí),各專業運維支撐係統功能(néng)也麵臨開發周(zhōu)期長、閉(bì)環流程自動(dòng)化程(chéng)度(dù)低的技術瓶頸(jǐng)。對此,運營商期望引(yǐn)入AI、大數據分析等技術,實(shí)現智能運維,做到主動維(wéi)護和故障“自愈(yù)”。


>>>>

大趨勢和主方向


AIOps平台能力的(de)構建,已(yǐ)經成為(wéi)各行業智(zhì)能(néng)化(huà)演進的一大趨勢和主要方向。


03  Ops能力分(fèn)級


圖片關鍵詞


04  AIOps在(zài)極簡受理的實踐


智能化運維在實際運用過程中,優先要(yào)解決幾個關鍵問題:



故障樣本更全麵:從java異常架構出發,事先導(dǎo)出所有異常樣本


診斷字典更精(jīng)準:運用NER(實體識別)+solr(搜索引(yǐn)擎)抽(chōu)取異常特征(zhēng)


智能應用更廣泛:輔助識別異常,引導業務受理


圖片關鍵(jiàn)詞


樣本的全麵性處理主要通過(guò)下麵2步(bù)進(jìn)行:

1)樣本庫3大來源分別是:應用代碼、中間件、業務(wù)係統。采集手段不盡相同。應用代碼通過java異常框架,由其繼承關係,進行(háng)全量遍曆,搜集(jí)全量的異常關鍵字。中間件和業務係(xì)統的手段則是通過日誌來獲取。

2)得到上述基本數據後係(xì)統再進(jìn)行加工,加工(gōng)的工具有apache的NLP和Solr。加工的流程如圖所示,粗濾→規範→增強→歸並→精濾(lǜ)。通過以(yǐ)上環節得到的情景所需的特征(zhēng)keyword。


上述2步作為前提應用到我們運維場景。


在這裏我們提供了識別(bié)引擎和預定(dìng)義(yì)處理場景。當匹配到我們特(tè)征異(yì)常出現,預定義的場景功能自動觸發,無需人工幹預即可自動化完成。


>>>>

異常匯集(jí):動(dòng)態字典


搜集係統所有的異常形成特定標識,積累自動化運維規則引(yǐn)擎觸發的判定條件。


>>>>

初始化:Java異常機製


圖片關鍵詞


繼承是java麵向對象編程技術(shù)的一(yī)塊基石,通過繼承創建分等級層次的子類。從java架構(gòu)通過(guò)反射獲取到全量異(yì)常的關鍵(jiàn)字錄入字典庫。如圖所(suǒ)示,關鍵代(dài)碼:

圖片關鍵詞(cí)圖片關鍵詞

其遍曆結果持久化入(rù)庫,如(rú)圖所示(shì):


圖片關(guān)鍵詞圖片關(guān)鍵詞


>>>>

增量匯聚(jù):中間件+業務領域


中間(jiān)件的異常場景和業務的異常場景不能(néng)一蹴而就,需要在日常運行過程(chéng)日(rì)誌中挖取和積累。


中間(jiān)件異常場(chǎng)景與上述java應用相比(bǐ)範圍相對固定(dìng),但方法不同。我們通過ELT組(zǔ)件歸集日誌,粗濾篩選出異常特(tè)征,錄入知識庫。在係統中我們形成標準樣本庫後,以後(hòu)的項目就可以複用,最大化這塊價值。提供樣本供其他省份借鑒。


圖片關鍵詞圖(tú)片關(guān)鍵詞

利用NLP手工(gōng)標識異常


利用ELK進行日誌(zhì)歸集在這裏不(bú)再累述,關注的是怎麽從日誌中挖掘出異常特征。關鍵技術在NLP和(hé)solr:Apache OpenNLP庫是(shì)一個基於機器學習的自然語言(yán)文本處理的開發工具包,它支持自然語言處理中一些共有的任務,例如:標記化、句子分(fèn)割、詞性(xìng)標注、固(gù)有實體提取(qǔ)(指在句子中辨認出專有名詞,例如:人(rén)名)、淺層分析(句字分塊)、語(yǔ)法(fǎ)分析及指代(dài)。這些任務通常都需(xū)要較為先進(jìn)的文字處理服務功能;Solr是Apache Lucene項目的開源企業搜索平台。其主要功能包括全文檢索、命(mìng)中標示、分麵搜索、動(dòng)態聚類、數據庫集成(chéng),以及富文本的處理:


圖片關鍵(jiàn)詞圖片關鍵(jiàn)詞

結合數據流處理流程(chéng)和關鍵(jiàn)技術的應用最終獲取異常特征(zhēng)庫


>>>>

異常識(shí)別:輔助運維


這(zhè)種場景(jǐng)下,拋錯內容AI計算,即精準錯誤(wù)定位。有它,明顯可以帶來以(yǐ)下(xià)好(hǎo)處:減少(shǎo)等待、減少溝通成本、劃清角色邊界從而提高工(gōng)作效率、減低成本、提升客(kè)戶體(tǐ)驗(yàn)。想象一下,如果拋出一個(gè)異常不能精準定位的反向情景(jǐng):客戶在營業廳等待抱怨(yuàn),營業員再緊張上報(bào)溝通,運維人員一頭大......


圖片關鍵詞


>>>>

異(yì)常處理:半自動化運維


圖片關鍵詞(cí)


半自動化運維是異常識別的加強版,在識別的基礎上提供預定義處理方案。這些預定(dìng)義處理可以是api,可以是sql腳本。都是以往運維處理手段日常積累後的程序化手段(duàn),並沒有直接處理,決定權交給操作人(rén)員。也(yě)由自動處理的,操控權的級別取決(jué)於以往的準確率(lǜ)統計,當準確率達到(dào)95%後即可以上升自動調用級(jí)別。


05  產生的效益


準確性:通過對運維專家庫的不斷豐富,係統處理過程中的異(yì)常提示會越來越精準,一線(xiàn)人員在(zài)判定錯誤類型時,也更加易懂和高效。


減少誤報消耗:減少角色間的溝通成本,減少(shǎo)運維人員的人力成本。


06  完全自動運維設想


>>>>

專家係統


專家係統基於知識的係統,知識庫和推理機是其重要組成部分。其三要素:領域專家級知識、模擬專家思(sī)維、達到專家級的(de)水平。在極簡受理中我們有業務專家、研(yán)發專家、中(zhōng)間(jiān)件專家。將專家(jiā)的工作思考邏輯轉譯(yì)到(dào)知(zhī)識庫中,利用現有的規則引擎提供專業的指導意見。


圖片關鍵詞圖片關鍵詞


>>>>

故障自愈


實時發(fā)現告警(jǐng),預診斷分析(xī),自動恢複故障,並打通周邊係統實(shí)現整(zhěng)個流程(chéng)的閉環。


圖片(piàn)關鍵詞圖片關鍵(jiàn)詞


07  結語


運維正在從(cóng)後勤(qín)保障轉(zhuǎn)變成業務夥(huǒ)伴(bàn),從(cóng)成本中心轉變(biàn)到利潤中心,從對基礎(chǔ)設施“穩(wěn)定、安全、可(kě)靠”的追求,轉變為以支撐數字化業務的(de)“體驗、效率”為工作中心(xīn)。運維順應這(zhè)些發展和變化,必須加強對應(yīng)用程序性能的監(jiān)控分析和自動化(huà)的能力(lì),從而提高運(yùn)維的敏捷性。


AIOps已然成了輔助企業運維的不二(èr)法(fǎ)寶(bǎo),期望采用AI技術來建立數據之間相關性以及進行預測性分析,獲得(dé)更準確(què),更智能的數(shù)據結果。


/ END /

鯨品堂 讀者(zhě)交流群上線(xiàn)啦!

圖片關鍵詞

各位同學可以掃描上方二維碼,添加胖鯨小助理,回複關鍵字“進群”申(shēn)請入群。


大家可以(yǐ)和 鯨品堂 讀者一起暢所欲言,和編輯們零(líng)距離接觸,超值的技術禮包等你領取,超值活(huó)動等你(nǐ)參加,快來加入我們吧!




官方(fāng)微信(xìn)公眾號

国产亚洲熟妇在线视频雲計算科技股份有限(xiàn)公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕