News
您的位置:
過采樣(over-sampling)
欠采樣(under-sampling)
綜合采樣法
從學習(xí)模型(xíng)出發
從貝葉斯風險(xiǎn)理論出發
從預處理的角度出(chū)發
靜態數據,即(jí)用戶(hù)的基(jī)本信息(xī),如性別、年齡(líng)、入網時長、歸屬地市(shì)等。
動態數(shù)據(jù),指用戶的行為數據,如使(shǐ)用習慣、消費行為等。
標識數據,如“是否開通家庭網”、“是否當月訂購‘和彩雲’”等。
數據采樣方麵,對比未做任何處理的訓練集,經過數據增強(qiáng)的訓練集建模效果提升很大。與(yǔ)隻進行過采樣(SMOTE)的訓練集進行對比(bǐ),進一步剔除部分幹擾樣本(SMOTE+TomekLinks)後的訓練集模型泛化(huà)能力(lì)亦有所提升。
模型選擇方麵,基礎機(jī)器學習算法SVM學習能力(lì)不足,分類效(xiào)果不佳。XGBoost算(suàn)法雖然能得出較高的精確率,但(dàn)其在選擇正樣本時較為謹(jǐn)慎,導致召回率過低,同樣亦不(bú)適用於小(xiǎo)樣本訓練(liàn)。AdaCost是基於代(dài)價(jià)敏感學習的boosting算法(fǎ),在(zài)小樣本不平衡數據(jù)集中有較好的效果。
樣本比例方麵,當生成的少數類(lèi)較(jiào)少,模型從(cóng)少數類樣本中學不到足夠多的信息;若生成的樣本過多,會導致生成(chéng)樣本把原始(shǐ)樣本信息覆蓋。
模型超參方麵,代價係數增大,代表著誤殺成本更高,模型傾向於把(bǎ)更多(duō)的樣本分類為正樣本(召回率提高),但是精(jīng)確率會隨之有所下降,模型使(shǐ)用者可以根(gēn)據需求控製模型的效果(guǒ)。
国产亚洲熟妇在线视频雲計算科技股份(fèn)有限公司 版權所有 2003-2023
蘇ICP備10224443號(hào)-6 蘇公網安備 32011402011374號