0%

数据挖掘比赛技巧

特征工程

  • 缺失值填充

    • 特征为连续值,且为正态分布,使用均值填充,保持期望不变
    • 特征值为连续值,且为长尾分布,使用中值填充,避免异常点影响
    • 特征为离散值,使用众数填充
    • 使用模型预测完善用户画像
  • 特征转换

    • 对长尾分布的特征,做对数变换
    • 标准化、归一化
    • 连续值特征离散化

      基于LR、SVM、DNN等对特征的分布和尺度敏感的,归一化有助于模型收敛,基于树模型,具有伸缩不变形,不需要做特征变换

  • ID类特征处理

    • OneHot编码,例如性别,编码为0,1或者1,0
    • 使用某种特征的统计量代替该特征
    • Word Embedding,将高纬稀疏特征映射到低纬稠密特征。
  • 异常值剔除

模型选择

1、对于高维稀疏特征(如ID特征 One hot编码后),使用线性模型LR、FM(腾讯社交广告大赛)

2、对于低纬稠密特征,使用集成树模型XgBoost,GDBT,Random Forest(o2o优惠券核销预测)

3、对于图像语音类数据,使用DNN,如CNN,LSTM

数据挖掘比赛中集成树模型占优势的原因:

  • 比赛数据特点

    • 结构化标单数据
    • 混合类型(类别型,连续型)
    • 大量缺失值
    • 含有离群点
    • 长尾分布
  • 树算法模型法特点

    • 善于处理混合类型特征
    • 善于处理缺失值
    • 伸缩不变性
    • 对离群点有鲁棒性
    • 容易并行化、有高效开源工具

    模型融合

    Average、Voting、Stacking,Blending

    Stacking工具mlxtend

调参经验和技巧

树模型调参经验

GridSearchCV

坚持原创技术分享,您的支持将鼓励我继续创作!