大数据建模大赛辅导实战

课程目标】

本课程主要面向专业人士的大数据建模竞赛辅导需求(假定学员已经完成Python建模及优化--回归篇/分类篇的学习)。

通过本课程的学习,达到如下目的:

  1. 熟悉大赛常用集成模型
  2. 掌握模型优化常用措施,掌握超参优化策略
  3. 掌握特征工程处理,以及对模型质量的影响
  4. 掌握建模工程管道类(Pipeline, ColumnTransformer)的使用

【授课时间】

2-3时间,大致内容安排(会根据需求和学员水平调整进度)

 

时间

主题

具体内容

目的

第一天

上午

建模流程

建模步骤

模型评估指标

模型基本原理

常用建模步骤,构建通用common模型,完成模型训练、评估等的封装

第一天

下午

数据清洗

数据清洗

缺失值填充

  1. 理解异常数据对模型的影响
  2. 缺失值常用的填充方式(固定值、分类填充、拉格朗日、预测填充)
  3. 不同填充对模型的影响

第二天

上午

特征选择

特征选择模式

(Filter/Wrapper/Embedded)

  1. 特征选择的封装实现
  2. 优缺点及应用场景

(SelectKBest,REF,SelectFromModel)

第二天

下午

变量降维

因子分析

主成份分析

管道实现

  1. 变量降维PCA/FA
  2. 掌握管道处理技能 (Pipeline, FeatureUnion, ColumnsTransformer)

第三天

上午

变量变换

变量派生

变量标准化

模型集成思想

  1. 利用探索性分析,指导变量派生
  2. 不同标准化对模型的影响
  3. 特征处理的不同顺序对模型效果的影响

第三天下午

超参优化

超参优化方法

欠拟合优化

过拟合优化

其它优化(性能、样本均衡处理)

  1. 不同超参的作用(欠拟合/过拟合)
  2. 超参优化方法
  3. 超参优化策略
  4. Stacking集成

 

【授课对象】

参加大数据建模大赛的IT专业人士。

要求精通Python语言,熟悉sklearn库的基本使用等。

【授课方式】

理论框架 + 落地措施 + 实战训练