News
您的位置:
為什麽每天電話郵件雲會議,四處化緣(yuán)各種數據報表?為什麽通宵達旦整理數據,到了匯報時還是被批數據不準不全不及時?為(wéi)什(shí)麽運維團隊逐漸龐(páng)大,各種規章製度,工作效率卻止步(bù)不前?IDC運維的同(tóng)學們,在披星戴月的下班路上,你是不是會思(sī)索這(zhè)樣的問(wèn)題?
近幾年來,我國數據中心機架規模持續穩步增長,大型以上數據中心規模增長迅速(sù)。截止2021年底,我國在用數據中心機架規模達到520萬架,近五年年(nián)均複合增速超過30%,其中大型以上數據中心機架規模增長更為(wéi)迅速(sù),機(jī)架規模420萬架, 占比達到80%。與(yǔ)此同時(shí),新業務(wù)新技術給消費終端(duān)帶來更好的體驗感知,對數據中心網絡的質量、可靠性及安全性也提出了更高(gāo)的要求。國內數據中心機架(jià)規模(數據來(lái)源工信部信息(xī)通信發展司)運營商的數據中心,其建設年份較長,設備種類繁多,分布廣泛。在生產工作中,對這(zhè)些設備的運維監管有著不小的難度與挑戰。設備(bèi)複(fù)雜度高,廠商多、型號雜、采集協議(yì)多IDC設備包括物理服務(wù)器、網絡設備、存儲設備(bèi),此外還包括動環等(děng)。目前已投入應用的設(shè)備廠家多、型號雜、文檔缺(quē)失。要做到監控(kòng)指標的全麵覆蓋,數據采集需要適配多種協議,即使是最經常使用(yòng)的(de)SNMP也需要適配不同廠(chǎng)家的(de)私有MIB庫,大大增加了采集的複雜度。監控程度低,方法手段單(dān)一對於五花八門(mén)的設備廠商和型號,監控麵窄,可感(gǎn)知指標簡單(dān),常見於執行腳本收集到例如PING網絡是否連(lián)通(tōng),TELNET端口是否開放等簡單的(de)指標來監(jiān)控設備有沒有掛死,缺(quē)少(shǎo)深層次故障性能指標。自動化水平低,漏管設備多,納管(guǎn)不及(jí)時傳統IDC運維(wéi)監管工具依賴於規章製度流程的嚴格執行,但在建設(shè)和(hé)割接等工(gōng)程階段,大量設備(bèi)出入庫和位置變(biàn)更(gèng),相關流程執行不嚴會導致設備運維數據錄入延遲。缺(quē)乏自動化感知能(néng)力,造成(chéng)監管遺漏,如果發生故障,需要更高的成本(běn)解決故(gù)障。普度運維DCUCC,數據中心集中采集控製平台,聚焦(jiāo)於IDC機房的服務器和網絡設備的運(yùn)行感知和控製,是各種運維平台工具(jù)的基礎數據和能力底座,是連接管理係統和網(wǎng)絡設備的唯一紐(niǔ)帶。国产亚洲熟妇在线视频科(kē)技DCUCC的方案架構DCUCC整體采用集中化采集(jí)框架服務+分布式采集前置機的部署架構。采集框架服務在運維總部集中部署,負責配置、監控、任務調度和數據回收處理工作;前置機在各DC內就近部署,負責采集任務(wù)執行。輕量化前置部署前置節點輕量化架構,使用嵌入(rù)式的(de)緩存(cún)和隊列,不(bú)需專門資源部(bù)署PAAS組件;啟(qǐ)動後配(pèi)置(zhì)數據本地化,即使與管(guǎn)理節點的連(lián)接中斷也不影響采集任務(wù)執行;不依賴數據庫運行。高容錯且輕量化(huà)的前置節點,使用廉價服務器按需異地部署,實現各個數據中心設備(bèi)的采集監(jiān)控全麵覆蓋。設(shè)計態和運行態分(fèn)離模式通過設計態(tài),實現設備(bèi)類(lèi)型(xíng)建模,接口指令設計、服務設計等準備工作。平台提供可視化采集流程設(shè)計,支持複雜任務采集編排,將采集、解(jiě)析、轉換、匯聚、回(huí)傳、持久化等多種任務自由組(zǔ)合;提供API開發,能自由組(zǔ)合設備的各種能力,為上層運維工具(jù)賦能。国产亚洲熟妇在线视频科技DCUCC的可視化采集流程編排設計(jì)完成後按設備型號輸出相應業務(wù)包,業務包在各運行態實例中(zhōng)加載(zǎi)使用。運行態的工作包括任務生成、任務執行、結果回收3大步驟。任務由集中節點根據采集策略自動生成,並按前置機負責範圍調(diào)度任務單。相應的前置(zhì)機(jī)接收采集任務,按數據采集、測量解(jiě)析、歸一化、持久化、回(huí)傳等步驟執行。最後(hòu),集中節點進行結果的匯聚收集。運行態采用彈(dàn)性部署方案,隨著采集任務量變化可進行人工和自動化的(de)運行時(shí)動態擴縮容調整。現在,你隻需(xū)通過DCUCC為每個DC部署上前置機,就可以提升你的“打怪”技能,成為運維中心最靚的仔。5大(dà)絕技多(duō)樣適配網(wǎng)絡設備和通(tōng)用服務器主要以SNMP為主進(jìn)行(háng)采集,因此DCUCC提供統一的(de)OID索引庫,將各類服務器和網絡設備采集特征統一管理維(wéi)護。為便於新指標特征的擴張,簡化調整,還配套相應(yīng)的一鍵測試,不(bú)需(xū)要做複雜的任務配置即可直接進(jìn)行取值測試(shì)。某些情況下SNMP依賴的(de)MIB庫的OID是很難進行獲取(qǔ)的,這時(shí)可通過指令控製模塊使用SSH協議仿真設備OS指令模擬人工登(dēng)錄設備巡檢查詢。DCUCC集(jí)成了主流網絡設備常用的指(zhǐ)令,可快(kuài)速聯想檢索,按白名單安(ān)全管控,對指令進行金(jīn)庫管理。對外物理服務器更有一(yī)種極端情況,既缺(quē)乏MIB庫支持又(yòu)無法像網絡設備OS有成熟的操作指令,某些(xiē)服務器上會安裝了(le)一個本地化運行的(de)WEB管理頁(yè)麵。這種情況下,係統還提供了WEB頁麵報文分析工具,自動解析提取嵌入在HTML報文(wén)中的指標信息。通過SNMP或(huò)OS指令或HTML解析,采集回(huí)來的值有簡單的單值型,也有複雜的(de)TABLE型,係統支(zhī)持BeanShell、Python動態腳本進行結果(guǒ)的(de)解析,方便靈活擴(kuò)展。IDC機房還存在(zài)少量(liàng)設備斷(duàn)電關機脫管的情況,這種情況下(xià)我們采用IPMI協議對這些設備進行基礎信息(xī)的采集。如符(fú)合運(yùn)維規則(zé),則遠程控製其進行啟動(dòng),再(zài)按標準化協議(yì)進行采集管控。自動發現IDC設備數量龐大,雖然大部分是按正式流程入網使用,但也存在緊急入網並投入使用的情況,這些設備(bèi)在係統的網元庫中沒有記錄,處於(yú)脫管狀態。針對此類情況(kuàng),係統提供自動化手段可主動發現識別新設備,自動為其配置采集策略,將其納入管理範圍。自動發現的原理是通過設備的LLDP協議自動發現周邊的新鄰居設備,根據(jù)LLDP屬(shǔ)性解析識別出新設備類型和IP地址,自動(dòng)生(shēng)成采集(jí)策略,自動完(wán)成新設備的數據采集(jí)工作(zuò)。下(xià)麵是自動發現和配置的完整過程。国产亚洲熟妇在线视频科技(jì)DCUCC的設備自動化發現和配置過程遍曆(lì)機房內已在網被納(nà)管的交換機和路由器。通過SNMP對網絡設備的LLDP信息進行采集,解析出對(duì)端設備的MAC地址、管理IP地(dì)址(zhǐ)、接口和設備信息描述。根據設備(bèi)信息描述中的特征值,識別出(chū)對端設(shè)備的類型和廠家型號等。根據MAC地址(zhǐ)和管理IP地址,與係統內(nèi)已納管的設備進行比(bǐ)對,確認是新設備後繼續執(zhí)行後麵的自動配置動作。對於新設備(bèi)自動我們可以根(gēn)據(jù)步驟1識別出的信息,自動完成設備和采集源的(de)自動創建任務,適配(pèi)相應(yīng)型號設備的采集模板,創建采集任務策略(luè)。對於新發(fā)現的設備是網絡(luò)設備的情況,還可能存在下連有新設備的(de)情況(如下圖),需要再次以這個新(xīn)網(wǎng)絡(luò)設備為源設備,迭代(dài)步(bù)驟1再次識別,直到沒有新設備才結束迭代。至(zhì)此(cǐ)整個自動(dòng)發現和配置完成。国产亚洲熟妇在线视频科技DCUCC自動發多層新(xīn)設備LLDP是定義在802.1ab中的二層協議,它提供了一種標準的(de)鏈路層發現(xiàn)方式,使得接入網絡的一(yī)台設備可以將其主要的能力(lì),管理地址,設備標識,接口標(biāo)識等信息發送給(gěi)接入(rù)同一個局域網絡的其它設備。我們不僅(jǐn)可以用它來發現新設(shè)備,還(hái)可以根(gēn)據獲取的本端的端口信息,自動完成機房局域網拓撲的自動繪製。在實際操作中,係統一般通過SNMP、SSH到新設備獲取(qǔ)LLDP信息,從對端的(de)角(jiǎo)度對連接信息進行確認。此外,在網絡部署和(hé)設備入網的時候,還需要遵循一些基本(běn)規則,包括:設備操作係統(tǒng)安裝時需安裝LLDPAD並默認打開LLDP服務網絡設備和服務器入網時需默認(rèn)打開SNMP服務,統一默(mò)認登錄鑒(jiàn)權網絡設備(bèi)和服務器遵循(xún)統一的命名規(guī)範(對應LLDP信息中(zhōng)的SYSTEM NAME單元),新設備識別會更加簡單準確離網清退對於使用年限長,效能利用率低的設備,運維部門會實施清(qīng)單化的退網(wǎng)規劃,從而釋(shì)放機房機架資源,減少能耗和碳(tàn)排放,降低運維工作量。離網(wǎng)清退工作,一般按以下步驟執行。老舊、低效、高(gāo)故障率設備(bèi)的篩查和上報運營運維組織內部審核設備配置數據清理設備下電(diàn)、離網、報廢或資源回收(shōu)重利用等對於老舊、低效、高故障設備的發現,DCUCC提(tí)供了一套自動化高效的篩查手段。係統會采集設備的關鍵指(zhǐ)標,並按一定的(de)規則進行自(zì)動(dòng)判別,初(chū)步整理出一份小範圍清單(dān)後再(zài)由人工進行確認。設備類型場景識別規則參考服務器(qì)無用戶使用CPU使用率:10天內日峰值<2%內存(cún)使用率:10天內日峰值(zhí)<5%網絡上下行(háng)流量:10天內日峰值<10M存儲使用率(lǜ):10天內波動<0.1%(1G)老舊(jiù)設備入網時間(jiān):>8年主機型(xíng)號、CPU型號、磁(cí)盤型號(hào)、內存型號:發布時間>10年多故障(zhàng)設備故障時長占比:>20%(3個月內)交換機路由(yóu)器無用戶使用下聯端口狀態:DOWN狀態持續時間>10天下聯(lián)鄰居設備:2個月內全為空CPU使用率:10天內峰值(zhí)<1%內存使用率:10天(tiān)內峰值<5%網絡上下(xià)行流量(liàng):10天內日峰(fēng)值<10M老舊設備老舊光模塊設備型號(hào)/光模塊型號:發(fā)布時間>10年入網時間:>8年多(duō)故障設備老(lǎo)舊設備多(duō)故障端口錯包率(lǜ):>5%(1個月內)發送光功率:<臨界值(1個月內)溫度:>臨界值(1個月內)網絡和服務器(qì)設備在(zài)網工作期間都有大量的涉密配置數據,包括設備鑒權、網絡結構、安全策略、用(yòng)戶業務數據等(děng)。這些清退設備並非直接銷毀,可(kě)能會進入外(wài)部回收市場或者其它環境下的利舊(jiù)複用,因此要在下電前完成這些涉密數據的清理銷毀工(gōng)作。針對不同類型和型號的設(shè)備,係(xì)統提供一鍵清退能(néng)力(lì),自動安全高(gāo)效地完成配置數(shù)據清理(lǐ)工作,完成後自動關閉設備,避免無謂能(néng)耗。国产亚洲熟妇在线视频科技(jì)DCUCC的(de)下線設備配置數據自動清除過程(chéng)割(gē)接輔助數據機房不定期需(xū)要(yào)對網絡、服(fú)務器、電(diàn)源等進行擴容、改造、升級、遷移等變更,同時這些操作行為又發生在一個正(zhèng)在承載業務的上(shàng)設備上,這就是(shì)割接操作(zuò)。割接工作往往在晚上進行,操作時間短,對操作員的技術、技能、體力、經(jīng)驗等都有一定的要求。通過長期多項(xiàng)目經驗的積累,采集係統提供割接輔(fǔ)助功能,一鍵批量導入待割接設備,按(àn)需選擇割接場景,自動完成相關批量的、重複的、可操作時間短的各種設備操作。可支(zhī)持的操作包括:自動(dòng)暫停監控係統的采集任務,避免積壓異常采集任務單如涉及設備配置變(biàn)更,自動完成設備配置(zhì)數據的導出和備份任務如(rú)涉及設備關機(jī),自(zì)動(dòng)完成各項關機臨檢(jiǎn),如服務器是否還有用戶登(dēng)錄、是否還有業務進程在運行,網絡上是否還有業務流量等,記錄割接前的網絡(luò)時延和(hé)丟包指(zhǐ)標設備遠程關機,待人(rén)工作業流程結束後(hòu),設備遠程開機開機完成後自動完成網絡恢複測試,檢測設備到各個出口撥測點的網絡通斷性,時延和丟包率是否(fǒu)劣化等自(zì)動恢複監控係統的采集任務(wù)代理上報服務(wù)器上一般(bān)會運行操作(zuò)係統(tǒng)外的各種軟件,SNMP等設備標(biāo)準協議難以采集到這些軟件運行數據,又不允許開放遠程模擬登錄權限,這時(shí)候就用AGENT代理模式。AGENT是我們部署在采集源上的一個極輕量化的信息收集器,采(cǎi)用(yòng)輕量腳(jiǎo)本進行編寫,或操作係統默認(rèn)支(zhī)持的類庫(kù)語言編寫,減少(shǎo)入侵性。目前係統提供(gòng)的AGENT可以支持大多數主(zhǔ)流操作係統,支持對常見PAAS平台日誌、MYSQL等主流數據庫日誌(zhì)。AGENT模式還可以支持自定義腳本監測器,實現對私有業務係統的監測。采集(jí)對象采集內容LINUX係統計算服(fú)務日誌、對象存儲服務日誌、塊(kuài)存(cún)儲服務日誌、網絡服務日誌(zhì)、認證(zhèng)服務日誌、鏡像服(fú)務日誌、CEPH日(rì)誌WINDOWS係統係統事件表、注(zhù)冊表MYSQL/MONGODB錯誤(wù)日誌、告警日(rì)誌REDIS集群狀態報錯、客戶端連接數過大、Redis使用的內存超過maxmemory配置、客戶端緩(huǎn)衝(chōng)區異常、客戶端連接超時記錄、無法從連接池獲取到連接記錄等;ZOOKEEPER連接(jiē)斷開和重連日誌、ZKClient反複重試連ZK服務器且秒連秒斷、ZK單機Watch數超(chāo)過閾值項目實戰在21年某電信雲運維項目中,通過DCUCC對數據中心(xīn)的物理服務器、網絡交換機、路由器、防火牆、存儲設備都已具備(bèi)采集控製能力(lì),廠家覆蓋20多家(jiā),型號覆蓋200多種。采集能(néng)力覆蓋全麵的基礎(chǔ)資源指標300多種、性能指(zhǐ)標120多種、告警和日(rì)誌消(xiāo)息(xī),全麵覆蓋各級DC的設(shè)備。21年底DCUCC納管(guǎn)設備範圍(wéi)輕量化的采集(jí)前置機易於擴展,省市機房(fáng)的納管硬件(jiàn)成本控製在小幾萬元水平,利舊低配服務器(qì)。低成(chéng)本運維從另一個角(jiǎo)度又確保了大量中小機房的管(guǎn)理(lǐ)覆蓋麵。原來新增100台設備的納管,需要1個人工花2天時間完成設備錄入,配置基礎采集信息,采集任務驗證,數據驗證。現在完全釋放配置人員,可實現分鍾級設備接入配置,自動啟動數據采集處理和上報。新一代的IDC不斷引入(rù)綠色低碳技術,能效考核指標從以 PUE 為主(zhǔ)逐步演變為 PUE、 CUE、 WUE等多指標兼顧,機房數字化智能化也對運維基礎能力提出更(gèng)高的要(yào)求。DCUCC提供了一個業(yè)務能力(lì)豐富且(qiě)易於擴展IDC設備接(jiē)入平(píng)台,在不斷發展的雲(yún)服務時代,會實時更新(xīn)業務能力來適應不斷推陳(chén)出新的新設備和(hé)新技術。
設備(bèi)複(fù)雜度高,廠商多、型號雜、采集協議(yì)多
監控程度低,方法手段單(dān)一
自動化水平低,漏管設備多,納管(guǎn)不及(jí)時
輕量化前置部署
設(shè)計態和運行態分(fèn)離模式
多(duō)樣適配
自動發現
遍曆(lì)機房內已在網被納(nà)管的交換機和路由器。
通過SNMP對網絡設備的LLDP信息進行采集,解析出對(duì)端設備的MAC地址、管理IP地(dì)址(zhǐ)、接口和設備信息描述。根據設備(bèi)信息描述中的特征值,識別出(chū)對端設(shè)備的類型和廠家型號等。
根據MAC地址(zhǐ)和管理IP地址,與係統內(nèi)已納管的設備進行比(bǐ)對,確認是新設備後繼續執(zhí)行後麵的自動配置動作。
對於新設備(bèi)自動我們可以根(gēn)據(jù)步驟1識別出的信息,自動完成設備和采集源的(de)自動創建任務,適配(pèi)相應(yīng)型號設備的采集模板,創建采集任務策略(luè)。
對於新發(fā)現的設備是網絡(luò)設備的情況,還可能存在下連有新設備的(de)情況(如下圖),需要再次以這個新(xīn)網(wǎng)絡(luò)設備為源設備,迭代(dài)步(bù)驟1再次識別,直到沒有新設備才結束迭代。至(zhì)此(cǐ)整個自動(dòng)發現和配置完成。
設備操作係統(tǒng)安裝時需安裝LLDPAD並默認打開LLDP服務
網絡設備和服務器入網時需默認(rèn)打開SNMP服務,統一默(mò)認登錄鑒(jiàn)權
網絡設備(bèi)和服務器遵循(xún)統一的命名規(guī)範(對應LLDP信息中(zhōng)的SYSTEM NAME單元),新設備識別會更加簡單準確
離網清退
老舊、低效、高(gāo)故障率設備(bèi)的篩查和上報
運營運維組織內部審核
設備配置數據清理
設備下電(diàn)、離網、報廢或資源回收(shōu)重利用等
割(gē)接輔助
自動(dòng)暫停監控係統的采集任務,避免積壓異常采集任務單
如涉及設備配置變(biàn)更,自動完成設備配置(zhì)數據的導出和備份任務
如(rú)涉及設備關機(jī),自(zì)動(dòng)完成各項關機臨檢(jiǎn),如服務器是否還有用戶登(dēng)錄、是否還有業務進程在運行,網絡上是否還有業務流量等,記錄割接前的網絡(luò)時延和(hé)丟包指(zhǐ)標
設備遠程關機,待人(rén)工作業流程結束後(hòu),設備遠程開機
開機完成後自動完成網絡恢複測試,檢測設備到各個出口撥測點的網絡通斷性,時延和丟包率是否(fǒu)劣化等
自(zì)動恢複監控係統的采集任務(wù)
代理上報
国产亚洲熟妇在线视频雲計算科(kē)技股份有限公司 版(bǎn)權所有 2003-2023
蘇ICP備10224443號-6 蘇公網安(ān)備 32011402011374號