鯨品堂|實時數倉(cāng)實戰(zhàn)

2022-06-13 253
什麽是實(shí)時數倉

數字化轉型的驅動下,傳統(tǒng)的離線數據倉庫,將業務數據集中進行存儲後,以(yǐ)固定的計算邏輯定時進行ETL和其它(tā)建模後產出報表等應用(yòng)。離線數據倉庫一(yī)般采用每日或每幾個小時進行一次計算的方式,計算和數據的實時性均較差,業務人員無法根據自己的即時性需要獲(huò)取幾分鍾之前的實時數據。

隨著軟件技術和硬件的發展,實時數據倉庫一類的解(jiě)決方案趨於(yú)成熟並開始流行。實時數倉同時具有計算的實時(shí)性(計算在用戶查詢時發生,可自由變換,查詢速度快),和數據的實時(shí)性(數據產生插入數(shù)倉後很短時間內既可以查詢到),可(kě)以讓業務人員在幾秒鍾(zhōng)甚至幾百毫秒的時間內獲取到包含最近幾分鍾內的數據計算結果,以最大的實時性及靈活度應對千變萬化(huà)的業(yè)務挑戰。

實時計算技術日趨成(chéng)熟

實時計算框架已經經曆了三代發展,分別是(shì):Storm、SparkStreaming、Flink,計算框架越來越成熟。一方麵,實時任務的開發已經能通過(guò)編寫 SQL 的方式來完成(chéng),在技術層麵能很好地(dì)繼承離線數倉的架構設計思(sī)想(xiǎng);另一方麵,在線數據開發平台所提供的(de)功能(néng)對(duì)實(shí)時任務開發、調試、運維的支持也日漸趨於成熟,開發成本逐步降低。

實時數倉的特點

為滿足數倉對實時性(xìng)的要求,實時數倉新品,兼具快、易、省三大特點:
1
快:
數據通過實(shí)時的流式接入,利用成熟的實時計算與存儲技術,實現對數據的秒(miǎo)級計算,秒級分析應(yīng)用的能力,使得供數時效從1天以上的時間提升到秒級內。
2
易:
支持基於SQL完成複雜流式計算語義定義,簡化開發,可以支持各(gè)種組件進行統一查詢,而不需要把數據從一個組件遷移到另一(yī)個組件。以實時統計新增產品(pǐn)發展數場景為例,僅用300行SQL代碼實現了原有800行Oracle腳本(běn)同樣的功能。
3
省:
傳統T+1的(de)模式並不是24小時跑任務,計算高(gāo)峰期在晚(wǎn)上,導致白天的(de)資源(yuán)利用不足,引入實時數倉後,數據是實時采集與實時計算,資源的使用分散(sàn)到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉,充分利用資源,相當於節省了(le)資源的浪費(fèi)。

實時數倉快速提升數據價值

業務不斷增長,營銷活動變得越來越頻繁,如何快(kuài)速有效地獲取數據價值,幫助業務部門高效的進行運營及營銷策略調整變(biàn)得(dé)越來越重要與緊迫,而(ér)實時數倉剛好應對這種快速增長的業務訴求,例如以下幾個方麵的數據(jù)價值提升:

1
豐富業務營銷場景能力:
缺乏實時類標簽關聯和運營營銷能力,需要建設實時營銷標簽和時效性更高的事件營銷場景,助(zhù)力客戶轉化和價值提升。
2
實時運營分析能力提升:
缺乏分鍾級甚至(zhì)更高效的(de)實時數據分析能力,需要構建實時(shí)運(yùn)營指標體係,為企業經營決策提供分鍾級實時應用通報,提效業務決策。

3
服務運營優化提升:

運營服務和業務流程從業務(wù)受(shòu)理到服務開通,全流程場景涉(shè)及係統多(duō),業務運營服務往往無(wú)法(fǎ)快速分析定位問題,需要建設實時的全鏈路的運營監控(kòng)服務能力(lì),提高業務服務水(shuǐ)平。

4
實時通報看數:

運營商數據分析和匯總,主要采用半小時及以上(shàng)頻率(lǜ)匯總,數據分析延遲高,出(chū)數不及時,導致管(guǎn)理人員、一線業(yè)務無法實時掌握營銷數據,無法快速決策,需要建(jiàn)設一個實時秒級的數據分析與(yǔ)匯總係統(tǒng),幫助提升營銷能力,協助快速決(jué)策。

5
實時業務提醒:

在使用手機刷屏、看電影時,經常遇到因流量超標,造成(chéng)客戶突然停機、莫名地支付超高的流(liú)量費用,引起客戶投訴或離網等情況,因此需要通過實時(shí)計算的能力,將流量數據與(yǔ)業務規則進行快速計算,並(bìng)即時(shí)提醒客戶流量不足,避免客戶(hù)流失。


国产亚洲熟妇在线视频科技實時數倉經典場景

某省(shěng)電信運營商按照國家信息安全戰略要求,為實現全(quán)麵去O雲化,通過(guò)采用国产亚洲熟妇在线视频實時數倉平台,基於Flink+Hudi+CK+緩存技術架構,以流批一體化計算為核心,完成了新一代實時數倉建設,係統建設有(yǒu)效提升業務受理效率,加快了對業務營銷的賦能。

係統建設總體架構如下:

圖片關鍵詞

                   圖片關鍵詞

1、係統架構層麵:

該運營商基於流消(xiāo)息,采用国产亚洲熟妇在线视频科技實時數倉平台,支撐多(duō)流合(hé)並、流流關聯(lián)、流表關聯,實現基於流的(de)秒級關聯(lián)、計算,打造了自己的實時數倉體係,完成建設並沉澱的實時模型45+,指標100+,實時標簽180+。

2、分析應(yīng)用層麵(miàn):

實現省內實時經營視窗分析(xī)、季度(dù)營銷通(tōng)報、歲末年初營銷通報、實時協號轉網(wǎng)多類實時通報、數字化大屏實時場景,數據分析和(hé)呈(chéng)現效率(lǜ)由30分鍾+,提(tí)速到分(fèn)鍾級(jí)甚至秒級,極大的提高的領導決策、一線人員運(yùn)營、客服服務定位的效(xiào)率。

數字化實時(shí)大屏(PC):

圖片關鍵詞

實時經營視窗(APP):

圖片關鍵詞

3、營銷服務(wù)層麵:

建設了基於CRM實時API調用大數(shù)據的實時標簽,判斷客戶當前業務情況是否存在(zài)受理限製,實時(shí)業務受理。實時受理類標簽調用月均1W+次,查詢效率由原本30分鍾+的延遲,提速(sù)至5分鍾以內,極大減少了(le)客戶(hù)在(zài)業務(wù)受理時的等待時間。

基於客(kè)戶流(liú)量、費用超標的流事件(jiàn)進行觸發,實時關聯和(hé)融合客(kè)戶畫像標簽,實現實時流量輔導、實時業務提醒、實時攜號轉網挽留場景(jǐng)建(jiàn)設,業務(wù)服務水平得到較大(dà)提升(shēng),客(kè)戶投訴率下降13%+,客戶價值增長(zhǎng)7%+

圖片關鍵詞

国产亚洲熟妇在线视频科技實時數倉建(jiàn)設實戰

從構建一個高效的、實時處理數據的實時數倉出發,協助項目人員快速開發實(shí)時業務場景,並可以清晰的進行實時場景的運維自治,從而真正地解決在(zài)用數市場(chǎng)的數據時效性的難題和困境(jìng)。

實時數倉庫從平台(tái)化的總體規劃、功能的完(wán)善性、開發的易用性、運行的安全性、建設的高效性等出發,建設基於批流一體化的框架保障實現邏輯統一,可以處理所有數據(jù),同時加強對數倉建設過程的標準、元數據與數據模型的管理,讓所有過程有據可(kě)循,可跟蹤可呈現,再利用(yòng)當前先進的數據湖技術來保障(zhàng)數據的(de)存儲及時永新;規劃設計的實時數倉(cāng)建設思(sī)路(lù)如下圖:

圖片關鍵詞

1
實時數倉架構

數倉的分層搭建需要(yào)從(cóng)複(fù)用、成本、質量、擴展性等方麵去(qù)考慮,實時數倉的(de)搭建,包括層次劃分、命名、主題域劃分、數據域劃分與離線(xiàn)相差不(bú)大,目前劃分層次如下圖,推出(chū)了以Flink、hudi與clickhouse為核(hé)心的(de)批流一體化海(hǎi)量實時數倉架構,用1套架構解決了N種分析場景的需求(qiú),過去需要運維N種獨(dú)立的組件、開發N套係統、對接N種接口、N種安全(quán)策略,現在隻用1個係統1套架構就都解決(jué)了數(shù)據(jù)割裂和開發複雜的問題,並且讓實(shí)時(shí)處理的架構變得非常簡單。

圖(tú)片關鍵詞
圖片(piàn)關鍵詞
2
建設實踐

不管是從上下結(jié)構還是左右結構演進過來的數倉一體,最終都應該是一(yī)個簡單易用(yòng)的係統體係,可快速(sù)接入數據、並高效實時的計算形成數倉各(gè)分(fèn)層所需的(de)數據,因此国产亚洲熟妇在线视频科技實時數倉一(yī)體平台提供四大關(guān)鍵特性,這(zhè)四大關(guān)鍵特性都是在圍繞怎麽(me)把實時海量數據做(zuò)到更加易用:

圖片關鍵詞

  • 快速接入(rù)

平(píng)台(tái)封裝超40+的數據源接入接口,開發者在使用的(de)時候,無需再進行對接源的學習研(yán)究,可以直接在平(píng)台上拖拉式數據或直接引用數據源的編碼方式使用,便(biàn)可以完成對數據源的快速接入,係統針對每種不同類型的數據都默認配(pèi)置了數據解析引擎,可以很方(fāng)便(biàn)快(kuài)捷的將(jiāng)結構(gòu)化、半結構化的數據格式轉換化表字段模式,快速接入數據類型如下圖(針對結構化與半結構化數據均可以快速接入(rù)):

圖片關鍵詞(cí)

數據的快速接入可支持(chí)客戶分鍾級的自助打(dǎ)通實時數倉的建設,屏蔽了很多底層的配置細節,讓客戶實現快速的(de)業務洞察。

  • 統一標準、元數據

實(shí)時數(shù)倉的標準沿用離(lí)線數倉的標(biāo)準,標(biāo)準的建設(shè)主要包括並遵守約定(dìng)好的數據類型規範、數據冗餘規範、數(shù)據表(biǎo)處理規範、表的生(shēng)命周期管理,詞根(gēn)設計規範、表命名規範、指標標簽的命名規範等;其中數倉的分層標準規範(fàn)中基(jī)於ODS層設計規(guī)範、公共維(wéi)度層設計規範、DWD明(míng)細層設計(jì)規(guī)範、DWS公(gōng)共匯總層設計規範等進行分層設計;清晰數據結構。好(hǎo)的標準規範在(zài)實時數倉中可清晰用於數據血緣追蹤,減少重複開發,數據關係條(tiáo)理化,屏蔽原始數據的影(yǐng)響(xiǎng)。

通過元數據可見技術,實現不同係統之間的數據可見性,進而實現雙向的讀寫能力(lì)。實時數倉的元數據(jù)管理(lǐ)支持批量導(dǎo)入各係統(tǒng)的(de)的元數據庫,支持新增表自動同步。通過(guò)外(wài)表的元數據可見,實現了數據不搬遷,支持雙向的可讀可寫可感知。元數據自動發現技術,更是讓外表的創建和更新完全(quán)自動化,減少(shǎo)了大量手工運維(wéi)調試的工作。用戶不再需要周期性同步表結構(gòu),不再需要擔心數據類型(xíng)的不對齊。

引用hudi與clickhouse存儲實時數(shù)倉數據,組(zǔ)件提(tí)供對數據的增、刪、改的實時操作,保障存儲(chǔ)的數據的及時永新,這樣就有效(xiào)的保障各層模型的實例數據的時效性,有利為各業務係統提供基於最新(xīn)數據分析、決策相關的(de)能力。

  • 提供統一的開發體驗

為節約各項目現場的開發成本,提升(shēng)業務實(shí)現的效率,實時數倉的開發屏蔽複雜的跨源計算技(jì)術,提供近業務邏輯實(shí)現的基於模(mó)型的拖(tuō)拉式的開發體驗與基於相(xiàng)對標準的統一的SQL開發體驗。
圖片關鍵詞
  • 係統自治

這個也是我們一直重點投入的領域,實時數據在建設過程中,由於計算任務經過環節較多,當出現問題的時(shí)候,往往在某一(yī)個地方很難定位與分析問題,需要從采集源、消(xiāo)息中(zhōng)間件、計算程序到數倉庫(kù)的全數據計算鏈路的(de)流程中去查(chá)找原因才好定位問(wèn)題。


自治的全鏈路運維(wéi)保(bǎo)障(zhàng)


為幫助運維人員更好(hǎo)地分析與定位問題,平台提供統一的運維管(guǎn)理能(néng)力,可在線查看處理各種業務(wù)與技術問題(tí),通過智能的采集數據源、緩(huǎn)存、實時倉庫存儲與計算過程的指標(biāo),製定相應的(de)指標閥值,快速實現對異常情況告警。同時係統(tǒng)針對識別到的異常的問題,建立係統運行的自治機(jī)構,自動識別源與目的臨時(shí)性問題決定數據自動處理方式(shì),如自動重新消費(fèi)、自動記錄或跳過數據等處理方式。係統運維圖(tú)如下:


圖片關鍵詞



自治的時(shí)效性保障


平台通過提前壓測與監控,發現影響數據計(jì)算的性能問題,提前做好數據處理的準備:

1)提前壓測:提前發現可能會影響任務處理速度的瓶頸,常見(jiàn)的就是數據傾(qīng)斜、大狀態的算子(zǐ)操作(join),及時預判是否當前資源(yuán)是否可以支撐運行,保障計算的時效性,如果不能(néng)會提前進行告警通知。

2 ) 監控:監控任務當前的消費進度(dù),在(zài)數據源處通過使用數據(jù)時間與當前係統(tǒng)時間對比(bǐ)判斷其消費進度(dù),對於大量(liàng)延遲(chí)係統嚐試增加並發與(yǔ)資源,若還是出(chū)現大量延遲會及時產生告警(jǐng)通知。


在(zài)項目上通過国产亚洲熟妇在线视频科技的實(shí)時數倉平台的能力,可以幫(bāng)助客戶快速地實現數據的處(chù)理,高效搭建實(shí)時數倉(cāng),節(jiē)約開發過程的成本與時間,解決客戶各種對數據時(shí)效性要求(qiú)高的(de)業務場景,提升(shēng)客戶對業務的決策能力。

歡迎掃碼留言谘詢圖片關鍵(jiàn)詞(cí)

圖片關鍵詞



官方微信公眾號

国产亚洲熟妇在线视频雲計算科技股份有限公司 版(bǎn)權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號(hào)

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕