上線後(hòu)對內、對外問題溝通主要通過運維負責人牽頭(tóu)和發起進行。
對內問題溝通,重點(diǎn)根據問題分類(缺陷或需(xū)求)、問題優(yōu)先級,每天定時組織需求、研(yán)發(fā)、數據等相關(guān)負責人進行(háng)問題分析和確認解(jiě)決時間。
對外問題溝通需要進行(háng)分層,對於客戶管理層主要通過日(rì)例會、周例會方式進行匯報,重點體現在問題的整體收斂進度和後續的解決計劃、人員(yuán)保障(zhàng)方麵內容。對於一線人員溝通主(zhǔ)要通過QQ群、企業微信群等及時(shí)通訊工具,重點體(tǐ)現在對個體問題或群中的消息及時進行響應以(yǐ)及問題處理(lǐ)進行確認等。
問題處理流程主要包(bāo)括五個關鍵的環節:問題提出、問題響應、問題轉派(pài)、問題處理、問題關(guān)閉。我們發現很多項目雖然上線成功,但是上線效果不好,追其根本原因之一發現問題並未進行閉環管理,導致上線效(xiào)果未盡人意,很可惜。並且,上(shàng)線之初(chū)是問題集中爆發的階段,留給項目組解決問題通常也就一周左右 黃金時間段。通過有效(xiào)的版本(běn)管理和升級流程、問題管理流程來(lái)應對(duì)集中爆發問題的版本發布及管理,避免出現版本(běn)的混亂(luàn)。問題處理可以采取下麵(miàn)4小步:

查理·芒格說“如果你的工具隻(zhī)有(yǒu)一把錘子,你會認為任何問(wèn)題都(dōu)是釘子。”因此,在係統上線初期需(xū)要構建項目多維度、多(duō)元化的工具(jù),工具箱箱中的工具越多越好,可以(yǐ)在項目管理、版(bǎn)本管理、測試管理、運維管理(lǐ)、係統安全等方麵(miàn)起到很大的幫助。


有效且合理的監控能為項(xiàng)目組在上線運維(wéi)過程帶來極大的幫助,特(tè)別是(shì)有效且合理的(de)自(zì)動化監控,極大的減(jiǎn)輕了(le)運維人員的工作量。在這裏(lǐ)連續強(qiáng)調了兩次“有效且合理”,那什麽是有效且合理的監(jiān)控?
監控係統運(yùn)行環境(jìng)的健(jiàn)康度,網絡的健康度(dù),各功能模塊的進程運(yùn)行的健康(kāng)度,業務指標的健康度等。通過對SaaS、PaaS、IaaS 層的自動化監控,向我們及時提供係統健康情況。SaaS層重點監控網絡、設備使用率等指標;PaaS重點監控容器CPU、內存使用率,文件(jiàn)係統使用率等指標;IaaS 層重點監控業務進程存活(huó)情況、業務指標波動情況等。
從(cóng)係統各功能模塊或者業務邏輯線條的各關鍵點進行自動化監控點的設置,監控點的內(nèi)容中需(xū)要體現“麵-線-點(diǎn) ”信息,通過由點到線,由線到麵的自動化監控,可以捕獲到哪個係統(tǒng)的哪個功能模塊的哪個點有問題,為我們快速定位問題節省(shěng)了很多的排查時(shí)間。例如:業務監(jiān)控方麵,需要細化監控點,從產品業務粒度、資源配置原子服務粒度、存量(liàng)資源可用率拆分顆粒度,進行“點”的監控;各(gè)產品業務場景(jǐng)涉及的業務工單情況、原子服務(wù)配置情況、資源可用率等(děng)串起來形成“線”的(de)監控,所有產品業務場景涉及的情況匯總後就形成資源配置“麵(miàn)”的監控(kòng)。通過一係列有聯係的監控(kòng)點,可以推(tuī)導出當前係統健康情況,異常點(diǎn)在(zài)什麽地方,對後續分析定位起(qǐ)到指引作用(yòng)。
多維度可以精(jīng)確定(dìng)位問題點,通過對環境容(róng)器內存(cún)、CPU使(shǐ)用(yòng)率,對內部(bù)環境-網關-對端網關進行網絡互通監控,對進程存(cún)活監控、業務(wù)工單或訪問量波動情況監控,進(jìn)行多個(gè)維度設置監控點。例如,我(wǒ)們的進程(chéng)監控點和該(gāi)進程對應功能影響的業務監控點,是互(hù)相有關聯的,這(zhè)兩個維度的監控,指(zhǐ)向的是同一功能當兩個監控點同時出現波動時,那係統功能大概率出現問題了。
多途徑,很好理解,既要有短信監控、也要有企業(yè)微信或釘(dìng)釘等監控,這樣避免其(qí)中一種監控途徑本身出現問題時,我們無法及時獲知監控(kòng)信息。
項目上線(xiàn)後,運維管理的本質是項(xiàng)目(mù)組(zǔ)盡最大的努力通(tōng)過事前(qián)準備、事後預案(àn)來保障係統穩定,守住上線取得的來之不易的成果。對於項目交付的生命周期,從項目啟動之初的需求管理(lǐ)工作開始,在經過版本研發管理、數據配置(zhì)管理(lǐ)、接口研發管理、數據遷移管理、測試管理、割接管理階(jiē)段後來到了最後(hòu)一個環節,也就是本(běn)文(wén)談到的上線運維管理,其中(zhōng)每個(gè)環節執行的質量和進度都是相互依賴、相互影響、相輔相成。
本文最(zuì)後(hòu)用納(nà)瓦爾寶典中的一段話作為結尾:“你的腦海中是不是會偶爾出(chū)現一首歌曲的旋律,它總是揮之(zhī)不去?這就是記憶痕跡。其實所有思想的形成莫不是痕跡效應的(de)結果。”希望本篇中的觀點、方法如同痕跡效應,能(néng)帶(dài)給(gěi)參與到項(xiàng)目交付的同(tóng)學一點幫助、啟發或參考。