特征工程
缺失值填充
- 特征为连续值,且为正态分布,使用均值填充,保持期望不变
- 特征值为连续值,且为长尾分布,使用中值填充,避免异常点影响
- 特征为离散值,使用众数填充
- 使用模型预测完善用户画像
特征转换
- 对长尾分布的特征,做对数变换
- 标准化、归一化
连续值特征离散化
基于LR、SVM、DNN等对特征的分布和尺度敏感的,归一化有助于模型收敛,基于树模型,具有伸缩不变形,不需要做特征变换
ID类特征处理
- OneHot编码,例如性别,编码为0,1或者1,0
- 使用某种特征的统计量代替该特征
- Word Embedding,将高纬稀疏特征映射到低纬稠密特征。
异常值剔除
模型选择
1、对于高维稀疏特征(如ID特征 One hot编码后),使用线性模型LR、FM(腾讯社交广告大赛)
2、对于低纬稠密特征,使用集成树模型XgBoost,GDBT,Random Forest(o2o优惠券核销预测)
3、对于图像语音类数据,使用DNN,如CNN,LSTM
数据挖掘比赛中集成树模型占优势的原因:
比赛数据特点
- 结构化标单数据
- 混合类型(类别型,连续型)
- 大量缺失值
- 含有离群点
- 长尾分布
树算法模型法特点
- 善于处理混合类型特征
- 善于处理缺失值
- 伸缩不变性
- 对离群点有鲁棒性
- 容易并行化、有高效开源工具
模型融合
Average、Voting、Stacking,Blending
Stacking工具mlxtend
调参经验和技巧
树模型调参经验
GridSearchCV