鯨品堂|如何借助上線初期運(yùn)維管理守住項目建設最後一公裏

2023-09-18 300

隨著(zhe)運營(yíng)商技術(shù)升級(jí)、業務發展,以及服務能力要求提升,當下新(xīn)建項目的交付或(huò)係統大版本升級大多數都需要(yào)曆經千辛萬苦才達(dá)到上線的彼岸。然而,項目上線並不意味著項目結束,“上線”也並(bìng)不意味著終點,而是一個新的管理模式的開端(duān)。


如何盡可能地降低真實(shí)業務加載上線後,出現(xiàn)的各種各樣問題呢?我們可以從事前防範,事後(hòu)預案兩方麵來總結。其中(zhōng)在項目交付過程中主(zhǔ)要工作除(chú)了係(xì)統建設之外,還有大量的(de)驗證、測試以及檢查工(gōng)作,其重要性不言而喻,關於事前防範本文不作細表。本文(wén)重點(diǎn)總結下運維策略在事後預案中的團隊、製度、流程、工具、監(jiān)控等方麵的實戰應用。


首先,我們看下新建項目在上(shàng)線(xiàn)初期經常會出現的五類生產故(gù)障。造成這些故障的(de)原因通常都是沒有做(zuò)好相關的運維(wéi)支撐(chēng)預案。

圖片關鍵詞圖片關(guān)鍵詞


其次,我們來(lái)看看上線項目將麵臨哪些困難與挑戰呢?在(zài)管理方麵,如果缺乏有力的管理和監督、有效問題處理機製、合理的製度約(yuē)束,將嚴重影響係(xì)統上線後的效果(guǒ)。在操作執行層(céng)麵,項(xiàng)目上(shàng)線初期,能夠快速熟悉並能(néng)定位問題的使用人員和(hé)維護人員並不多(duō),缺乏對新係(xì)統的了解、熟悉度低,需要接受新的業務思想,熟悉係統流程,這(zhè)讓使(shǐ)用和管(guǎn)理人員(yuán)短時間難以消化和應用,這也是係統上線後的一個阻力。

圖(tú)片關鍵詞

防患於未然,防重於治,在預(yù)防之餘,上線(xiàn)後不可能沒有困難或阻力,但是在預防工作做紮實後,出現(xiàn)這(zhè)些問題是可控的,也是新項目的正常(cháng)問題,解決難度(dù)也會降低。我們可以通過五個動作來解決上線運(yùn)維問題和(hé)阻力。


1

動作一:組建運維團隊

項目(mù)上線模式可以分為兩類:


第一類:先試點再推廣模式

這種模式的(de)特點是:在試點(diǎn)階段通常會爆(bào)發(fā)出很多(duō)在上線前測試階段未發現的問題或者忽略的問題;在推廣階段運維範圍從試點變成全省多個地市。當前各項目采用的較多的上線模(mó)式。

第二類:全省一次集中割接上線模式

這種模式的特點是:不采(cǎi)用試(shì)點,全省集中割(gē)接上線模式。具備割接準入條件需要對係統的性(xìng)能(néng)、割(gē)接時長(zhǎng)、測試場景(jǐng)覆蓋率(lǜ)、測(cè)試場景通過率、運維團隊的組織等方麵都提出了嚴格(gé)的標準。


在組建運維團隊時,需要根據(jù)不(bú)同上線模式、上線策略、項目組人員結構、人員能力等(děng)進行綜(zōng)合評估。



試點上線階段,最佳(jiā)的運(yùn)維團隊組建方式:人員按業務、按(àn)模塊(kuài)進行分組負責。運(yùn)維人員配置主要包括:需求、數(shù)據、測試和(hé)維護人員。通過試(shì)點階段問題的解決,快速提高運維人員(yuán)解決問題的綜合能力。



推廣上線階(jiē)段,最高效的運維團隊組建(jiàn)方式:人員按地市進(jìn)行分組負責。其中每一組負(fù)責支撐(chēng)多個地市的運維工(gōng)作(zuò)。此階段運維(wéi)人員(yuán)配置(zhì)需要在試點(diǎn)人員配置基礎上增加相關業務、模塊研發(fā)進場,快速收(shōu)斂問題,保障係統度過重保期。



全省集中割接上線模式,一步到位,項(xiàng)目管理者提前做好割接期(qī)間各項割接工作安排、割接後係統及業務的重保支(zhī)撐預案;加強日常培訓(xùn)的力度;對運維人員提出可量化的(de)學習目標並且通過每次的割接演練持續提高(gāo)解(jiě)決問題的能力等。對於運維團隊的組建方式和(hé)人員配置可參考“推廣上線階段”。


2

動作二:製度(dù)先行保障

無規矩不成方圓,好(hǎo)的製度一定是建立在提高工作效率,規範標準動作的基礎之上。在(zài)項目(mù)上線(xiàn)前後階(jiē)段,通常需要製定(dìng)的製度包括:版本發布(bù)機製(zhì)、版本測試機製、問題反饋機製和問題溝通機製(zhì)等,本文重點談下問題反饋機製和溝通機(jī)製。


問題反饋機製:入口統一,使用問題管理工具



在項目上線前(qián)兩周,首先就要明確(què)上線後問題處理機製。對於(yú)問題管理有兩種維度:按照分公司維度管理、按照係(xì)統功能維度來管理。按照分公司維(wéi)度(dù)管理有利於客戶進行問題記(jì)錄,但對運維支撐帶來一定的問題整理工作量;按照係統功能(néng)維度管理有利於運維支撐快速進行問題的分析,但對於客戶的問題記錄有一定的要求。在項目(mù)實戰(zhàn)中,我們更推薦使用(yòng)按照係統功能維度來進行問題管理。


接下來就是對問(wèn)題進行管理,通常各項目組都會采用表格進行管(guǎn)理,表格管理的最大弊端是對於(yú)問題維護的工作量較大;問題處理流程經(jīng)常會形成斷點;內外部問題通常多個表(biǎo)格進行維護,每天維護表格的工作量就非(fēi)常大,而且經過較(jiào)長時間(jiān)後的數據(jù)積累,表(biǎo)格(gé)已經顯得臃腫不堪。再此推薦高(gāo)效的方(fāng)法(fǎ),通過問(wèn)題管理工具化進行管(guǎn)理。我們使用較多的是BSS的(de)問題敏捷管理(lǐ)工具(jù),在此不作為重點說明哈。


最後就是建立問題首問責任製。運維負責人作為首(shǒu)問責任(rèn)人(rén)每天牽頭對問題組織進行分類、重點分析和解決(jué)。根據問題梳理出每日TOP問題關鍵點,提交研發及時進行修複,避免問題擴散。原(yuán)則上在重保期間卡點、阻塞性問(wèn)題當日必須解決,降低風險。


問(wèn)題溝通機製(zhì):主要分對內和對外問題溝通兩種(zhǒng)



上線後(hòu)對內、對外問題溝通主要通過運維負責人牽頭(tóu)和發起進行。


對內問題溝通,重點(diǎn)根據問題分類(缺陷或需(xū)求)、問題優(yōu)先級,每天定時組織需求、研(yán)發(fā)、數據等相關(guān)負責人進行(háng)問題分析和確認解(jiě)決時間。


對外問題溝通需要進行(háng)分層,對於客戶管理層主要通過日(rì)例會、周例會方式進行匯報,重點體現在問題的整體收斂進度和後續的解決計劃、人員(yuán)保障(zhàng)方麵內容。對於一線人員溝通主(zhǔ)要通過QQ群、企業微信群等及時(shí)通訊工具,重點體(tǐ)現在對個體問題或群中的消息及時進行響應以(yǐ)及問題處理(lǐ)進行確認等。


3

動(dòng)作三:問題處理控製

問題處理流程主要包(bāo)括五個關鍵的環節:問題提出、問題響應、問題轉派(pài)、問題處理、問題關(guān)閉。我們發現很多項目雖然上線成功,但是上線效果不好,追其根本原因之一發現問題並未進行閉環管理,導致上線效(xiào)果未盡人意,很可惜。並且,上(shàng)線之初(chū)是問題集中爆發的階段,留給項目組解決問題通常也就一周左右 黃金時間段。通過有效(xiào)的版本(běn)管理和升級流程、問題管理流程來(lái)應對(duì)集中爆發問題的版本發布及管理,避免出現版本(běn)的混亂(luàn)。問題處理可以采取下麵(miàn)4小步: 


圖片關鍵(jiàn)詞


4

動作四:工具輔助

查理·芒格說“如果你的工具隻(zhī)有(yǒu)一把錘子,你會認為任何問(wèn)題都(dōu)是釘子。”因此,在係統上線初期需(xū)要構建項目多維度、多(duō)元化的工具(jù),工具箱箱中的工具越多越好,可以(yǐ)在項目管理、版(bǎn)本管理、測試管理、運維管理(lǐ)、係統安全等方麵(miàn)起到很大的幫助。

圖片關鍵詞

圖片關鍵詞


5

動作五:監控保障

有效且合理的監控能為項(xiàng)目組在上線運維(wéi)過程帶來極大的幫助,特(tè)別是(shì)有效且合理的(de)自(zì)動化監控,極大的減(jiǎn)輕了(le)運維人員的工作量。在這裏(lǐ)連續強(qiáng)調了兩次“有效且合理”,那什麽是有效且合理的監(jiān)控?


監控要全麵



監控係統運(yùn)行環境(jìng)的健(jiàn)康度,網絡的健康度(dù),各功能模塊的進程運(yùn)行的健康(kāng)度,業務指標的健康度等。通過對SaaS、PaaS、IaaS 層的自動化監控,向我們及時提供係統健康情況。SaaS層重點監控網絡、設備使用率等指標;PaaS重點監控容器CPU、內存使用率,文件(jiàn)係統使用率等指標;IaaS 層重點監控業務進程存活(huó)情況、業務指標波動情況等。


監控成體係化



從(cóng)係統各功能模塊或者業務邏輯線條的各關鍵點進行自動化監控點的設置,監控點的內(nèi)容中需(xū)要體現“麵-線-點(diǎn) ”信息,通過由點到線,由線到麵的自動化監控,可以捕獲到哪個係統(tǒng)的哪個功能模塊的哪個點有問題,為我們快速定位問題節省(shěng)了很多的排查時(shí)間。例如:業務監(jiān)控方麵,需要細化監控點,從產品業務粒度、資源配置原子服務粒度、存量(liàng)資源可用率拆分顆粒度,進行“點”的監控;各(gè)產品業務場景(jǐng)涉及的業務工單情況、原子服務(wù)配置情況、資源可用率等(děng)串起來形成“線”的(de)監控,所有產品業務場景涉及的情況匯總後就形成資源配置“麵(miàn)”的監控(kòng)。通過一係列有聯係的監控(kòng)點,可以推(tuī)導出當前係統健康情況,異常點(diǎn)在(zài)什麽地方,對後續分析定位起(qǐ)到指引作用(yòng)。


監控(kòng)多維度化



多維度可以精(jīng)確定(dìng)位問題點,通過對環境容(róng)器內存(cún)、CPU使(shǐ)用(yòng)率,對內部(bù)環境-網關-對端網關進行網絡互通監控,對進程存(cún)活監控、業務(wù)工單或訪問量波動情況監控,進(jìn)行多個(gè)維度設置監控點。例如,我(wǒ)們的進程(chéng)監控點和該(gāi)進程對應功能影響的業務監控點,是互(hù)相有關聯的,這(zhè)兩個維度的監控,指(zhǐ)向的是同一功能當兩個監控點同時出現波動時,那係統功能大概率出現問題了。


監控多途徑化



多途徑,很好理解,既要有短信監控、也要有企業(yè)微信或釘(dìng)釘等監控,這樣避免其(qí)中一種監控途徑本身出現問題時,我們無法及時獲知監控(kòng)信息。



項目上線(xiàn)後,運維管理的本質是項(xiàng)目(mù)組(zǔ)盡最大的努力通(tōng)過事前(qián)準備、事後預案(àn)來保障係統穩定,守住上線取得的來之不易的成果。對於項目交付的生命周期,從項目啟動之初的需求管理(lǐ)工作開始,在經過版本研發管理、數據配置(zhì)管理(lǐ)、接口研發管理、數據遷移管理、測試管理、割接管理階(jiē)段後來到了最後(hòu)一個環節,也就是本(běn)文(wén)談到的上線運維管理,其中(zhōng)每個(gè)環節執行的質量和進度都是相互依賴、相互影響、相輔相成。


本文最(zuì)後(hòu)用納(nà)瓦爾寶典中的一段話作為結尾:“你的腦海中是不是會偶爾出(chū)現一首歌曲的旋律,它總是揮之(zhī)不去?這就是記憶痕跡。其實所有思想的形成莫不是痕跡效應的(de)結果。”希望本篇中的觀點、方法如同痕跡效應,能(néng)帶(dài)給(gěi)參與到項(xiàng)目交付的同(tóng)學一點幫助、啟發或參考。


官方微信公眾號

国产亚洲熟妇在线视频雲計算(suàn)科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕