鯨品堂|數據挖掘:針對小樣本與不均衡樣本的機器學習算法實踐

2022-04-12 1105
01
小樣本、不均衡樣本在(zài)分類(lèi)任務中普遍存在

隨著計算(suàn)能力、存儲空間、網絡的高(gāo)速發展,人類所積累的數據量(liàng)正在快速增長,而分類在(zài)數據挖掘中是一項非常重要的任務,已漸漸融入到了我們的日常生活中(zhōng)。

圖片關鍵詞

上述為機器學習領域分類任務的幾個典(diǎn)型應(yīng)用場景。在(zài)信用卡(kǎ)反欺詐場景中,大部分(fèn)行為為正常刷卡,盜刷行為(為識別目標,定義(yì)為正樣(yàng)本)是小概率事件(jiàn),甚至1%都不到。同理(lǐ),在用戶離網告警場景中,大部分用戶(hù)是正常的在網用戶,離網(wǎng)用戶(hù)(為識別目(mù)標,定義為正樣本)隻占非常小的(de)一部分。可見,在很多(duō)建模場景中都存在識別目標樣本數據量較(jiào)少,樣本極度不均衡的問題。

02
小樣本、不均衡樣本可能導致的問題


建模樣本量不足,將導致模型(xíng)陷入對小(xiǎo)樣本的過擬合以及對整體任務的欠擬合,缺乏泛化能力

過擬合是指模型對(duì)訓練(liàn)集(jí)“死記硬背”,記住了不(bú)適用於測試集的訓練集性質或特點,沒有理解數據背後(hòu)的規律。導致其在訓練樣本中表現得過於優越,但在驗證數據集以及(jí)測試(shì)數據集(jí)中表現不佳,即我們所說的“泛化(huà)能力差”。

圖(tú)片關(guān)鍵(jiàn)詞(cí)

正負(fù)樣本比例嚴重失衡(héng),信(xìn)息(xī)的(de)不均衡使得(dé)分類器(qì)更傾向於將數據樣本判(pàn)別為多數(shù)類

在一個極度不平衡的樣本中,由(yóu)於(yú)機器學(xué)習會針對(duì)每個樣本數(shù)據進行學習(xí),那麽多數類(lèi)樣本帶有的信(xìn)息(xī)量比少數類樣(yàng)本信息量大(dà),會對分類器的規則學習(xí)造成困(kùn)擾,使得分類器存在(zài)將樣本(běn)判別為多(duō)數類(lèi)的傾向。具(jù)體表現(xiàn)為:多數類樣本的查全率過高,少數類樣本的查全率過低,而整體的準確率依然會有很好的表現。

舉例來說:假如有100個樣(yàng)本,其中(zhōng)隻有1個是正樣本,其餘99個全(quán)為負樣本(běn),那麽(me)學習(xí)器隻要(yào)製定一個簡單的方法:所(suǒ)有(yǒu)樣本(běn)均(jun1)判別為負樣本(běn),就能輕鬆達到99%的(de)準確率。此時,正樣本召回(huí)率為0%,而負樣本召回(huí)率達到100%。但這個分類器的決策很明顯不是我們想要的判定標(biāo)準。

圖片關鍵詞

圖片關鍵詞

03
如何解(jiě)決(jué)小樣本、不均衡樣本問題

數據角度出發,運用采樣技術以均衡建模樣本

從數據的角度出發,既然樣本數據是不平衡的,那麽可以通過某種策略進行重采樣,從而(ér)讓數據相對均衡一些。抽樣策略主要包(bāo)括過采(cǎi)樣、欠采樣(yàng)、綜合(hé)采樣三種方(fāng)式。

  • 過采樣(over-sampling)

對少數類樣本進行采樣,通過擴充少數類數據樣本,使得兩類數據數目接近,然後再進行學習。粗暴的隨(suí)機複製少數樣本存在一(yī)定缺點:雖然引入了額外的訓練數據,但沒有給少數類樣本增加任何新的信(xìn)息,非常容易造成過擬合。為了合成有效新樣本,可選(xuǎn)用SMOTE、KMeansSMOTE、SVMSMOTE等過(guò)采樣算(suàn)法。

  • 欠采樣(under-sampling)

又稱下采樣。對多數類(lèi)樣(yàng)本進行采樣,通過減少多數類數據樣本,使得兩類數據量級接近,然(rán)後(hòu)再正(zhèng)常進行學(xué)習。簡單隨機抽樣方式存在(zài)一定缺陷:如果采樣隨機丟棄反例,會損失已經收集的(de)信息,往往還會丟失重要信息。為了緩解(jiě)隨機欠采樣(yàng)中的信息丟失,可選用NearMiss、ClusterCentroids、TomekLinks、EditedNearestNeighbours等欠采樣算法。

  • 綜合采樣法

過采樣算法的缺點是生成的少數類樣本容易與周圍的多數類樣本產生重疊難以(yǐ)分類,而欠采樣的數據清洗技術恰好可以(yǐ)處理掉重疊樣本(běn),所以可以將二者結合起來形成一個pipeline,先(xiān)過采樣再進行數(shù)據清(qīng)洗。主要的方法是(shì)SMOTE + ENN和SMOTE + Tomek。

算法角度出發,選用適用於(yú)不均衡樣本的算法

在通常的學習(xí)任務中,假(jiǎ)定所有樣本的權(quán)重一般都是相等的,或者說誤分類成(chéng)本是相同的。但是(shì)在大多數實際應用中(zhōng),這種假設是不正確的。因此從算法的角度出發,采用基於代價敏感學,即考慮不同誤分類(lèi)情況代價的差異性對算法進行優化,使得算法在不平衡數據下(xià)也能(néng)有較好的效果。所謂代價敏感學習主要考慮(lǜ)的是(shì)在分類問題(tí)中,不同類別(bié)的樣本在分(fèn)類錯誤時導致不同的誤分類成本如何去訓練模型。

  • 從學習(xí)模型(xíng)出發

主要是對算法的改(gǎi)進,使(shǐ)之能適(shì)應不平(píng)衡數據下的學習,如感知機,支持(chí)向量機,決策樹,神經網絡等分別都有其代價敏感的版本。以代價敏感的決策樹為例(lì),可從三個方麵對其進行(háng)改進以適應不平(píng)衡數據的學習,這三個方麵分別是:決策閾值的選擇方麵、分裂標準(zhǔn)的選(xuǎn)擇方麵(miàn)、剪(jiǎn)枝方麵。

  • 從貝葉斯風險(xiǎn)理論出發

把代價敏感學習看成是分類結果的一種後處理,按照傳統方法學習到一個模型,以實現損失最小為目標對(duì)結果進行調整,優化公式為圖片關鍵詞圖片(piàn)關鍵詞。此方法的優點在於它可(kě)以不依賴所用具體的分類器,但是缺點也很明顯它要(yào)求分類器輸出值為(wéi)概率。

  • 從預處理的角度出(chū)發

將代價用於權重的調整,使得分類器滿足代價敏感的特性。其代表的算法(fǎ)是基於代價敏(mǐn)感的AdaCost算法(fǎ)。

04
小樣本(běn)、不均衡樣本案例實戰(zhàn)

国产亚洲熟妇在线视频科技(jì)算法團隊在支撐某省份(fèn)權益產品“任我選”潛客(kè)挖掘模(mó)型專題時,也同樣遇到了(le)小樣本+樣本不均衡的問題。

需求背景

“任我選”潛客挖掘模型的目的是(shì)通過用戶基本信息、行為(wéi)數據,以及(jí)用戶是否訂購任我(wǒ)選視頻會員的標簽數據,利用分類算法構建訓練(liàn)模型(xíng),預測用戶是否會訂購任我選視頻會員(yuán),挖掘潛在(zài)的目標用戶,降低營銷成本,提(tí)升營銷效果。

數據說明

獲取全量用(yòng)戶特(tè)征數據寬表,共計400多萬。其中,隻(zhī)有5萬用戶是任我選視頻會員用戶,占比約為1.24%,除建模標簽(qiān)字段外,總(zǒng)共有128個輸入字段。為了方便進(jìn)行分類處理,將這些輸入字段歸(guī)為靜態數(shù)據、動態(tài)數據、標識數據3類。

靜態數據,即(jí)用戶(hù)的基(jī)本信息(xī),如性別、年齡(líng)、入網時長、歸屬地市(shì)等。


動態數(shù)據(jù),指用戶的行為數據,如使(shǐ)用習慣、消費行為等。


標識數據,如“是否開通家庭網”、“是否當月訂購‘和彩雲’”等。


模型構建

由於未訂購任我選視頻會員的用戶量遠大於有訂購的(de)用戶(hù)量,即負樣本量遠大於正樣本量,屬於典型的正負樣本(běn)比例不均衡任務。在建模過程中,需(xū)要考慮以(yǐ)下四個要點:
1. 是否需要對(duì)不均衡樣本數據做均衡處(chù)理?
2. 是否需要選用(yòng)適於不均衡樣本的特定算法(fǎ)?
3. 采取怎(zěn)樣(yàng)的樣本比例效果(guǒ)最好?
4. 模型參數如何選擇?

  • 對比數據(jù)增強對算法(fǎ)效果的影響


分別嚐試無數據增強處理、SMOTE、SMOTE+TomekLinks、SMOTE+enn樣本(běn)四種采(cǎi)樣策略(luè),SVM、XGBoost、AdaCost四種分類算法,構建二分類模型。隨機抽取1223100條樣本數據進行效果驗證,對比記錄如下表所示。

圖片(piàn)關(guān)鍵(jiàn)詞

由上表可看出:

數據采樣方麵,對比未做任何處理的訓練集,經過數據增強(qiáng)的訓練集建模效果提升很大。與(yǔ)隻進行過采樣(SMOTE)的訓練集進行對比(bǐ),進一步剔除部分幹擾樣本(SMOTE+TomekLinks)後的訓練集模型泛化(huà)能力(lì)亦有所提升。


模型選擇方麵,基礎機(jī)器學習算法SVM學習能力(lì)不足,分類效(xiào)果不佳。XGBoost算(suàn)法雖然能得出較高的精確率,但(dàn)其在選擇正樣本時較為謹(jǐn)慎,導致召回率過低,同樣亦不(bú)適用於小(xiǎo)樣本訓練(liàn)。AdaCost是基於代(dài)價(jià)敏感學習的boosting算法(fǎ),在(zài)小樣本不平衡數據(jù)集中有較好的效果。


  • 對比樣本比例對算法效果的影響


使用SMOTE+TomekLinks策略,分別嚐試1:5、1:2、1:1三種采樣(yàng)比例構建AdaCost模型(xíng),驗證條件不變,對比記錄如(rú)下表所示。

圖片關鍵詞

由上表可看出:

樣本比例方麵,當生成的少數類(lèi)較(jiào)少,模型從(cóng)少數類樣本中學不到足夠多的信息;若生成的樣本過多,會導致生成(chéng)樣本把原始(shǐ)樣本信息覆蓋。

綜合來看,當(dāng)過采樣生成樣本比例為1:2時,F1得分最高。

  • 對比關(guān)鍵超參對算法效果的影響(xiǎng)


代價敏感學習主要考慮的是在分類問題(tí)中,不同類別樣本在分類(lèi)錯誤時導致不同的誤分類成本。AdaCost在AdaBoost算法的基礎上進行改進:對於代價高的(de)誤分(fèn)類樣本(本研(yán)究中的正樣本),在AdaBoost調整係數的基礎上再乘(chéng)以一個代價(jià)係數,作為權重的更新。下表記錄了AdaCost在不同代價(jià)係數中的模型效(xiào)果。

圖片關鍵詞

由(yóu)上表可看出:

模型超參方麵,代價係數增大,代表著誤殺成本更高,模型傾向於把(bǎ)更多(duō)的樣本分類為正樣本(召回率提高),但是精(jīng)確率會隨之有所下降,模型使(shǐ)用者可以根(gēn)據需求控製模型的效果(guǒ)。

綜合來看,當代價係數取值(zhí)在1.75時F1評分最高,模型效果最佳(jiā)。

結論

數據采(cǎi)樣方麵,對比未做任何處理的訓練集,經過數據增強的訓練集建模效果提升很(hěn)大。增加有用的樣本,使得模(mó)型從樣本中學習到更多的信息(xī),SMOTE過采樣算法能增加樣本數量,TomekLinks等欠采樣的思想可以減少多餘樣本對模型的幹擾(rǎo)。

模型(xíng)選擇方麵,基於代價敏感學習的(de)AdaCost算法在小樣本不平衡(héng)數據集中較好的效果。

樣(yàng)本比例方麵,當生成的少數類較少,模型從少數類樣本(běn)中(zhōng)學不到(dào)足夠多的信息;若(ruò)生成的樣本過多,會導致生(shēng)成樣(yàng)本把(bǎ)原始樣本信息覆蓋。合(hé)理的采(cǎi)樣比例1:2,更適合本業務場(chǎng)景。

模型超參方麵,代價係數增大,召回率提高,但是精確率會隨之有所下降。綜合(hé)來看,當代價係數取值在1.75時F1評(píng)分最高,模型效果最佳。

官方微信公眾號

国产亚洲熟妇在线视频雲計算科技股份(fèn)有限公司 版權所有 2003-2023

蘇ICP備10224443號(hào)-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕