当前位置: 首页 > 内训课程 > 课程内容
广告1
相关热门公开课程更多 》
相关热门内训课程更多 》
相关最新下载资料

Python数据建模(分类模型篇)

课程编号:32149

课程价格:¥26000/天

课程时长:5 天

课程人气:331

行业类别:行业通用     

专业类别:大数据 

授课讲师:傅一航

  • 课程说明
  • 讲师介绍
  • 选择同类课
【培训对象】
业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。

【培训收益】


第一部分:预测建模基础
1、数据建模六步法
选择模型:基于业务选择恰当的数据模型
属性筛选:选择对目标变量有显著影响的属性来建模
训练模型:采用合适的算法,寻找到最合适的模型参数
评估模型:进行评估模型的质量,判断模型是否可用
优化模型:如果评估结果不理想,则需要对模型进行优化
应用模型:如果评估结果满足要求,则可应用模型于业务场景
2、数据挖掘常用的模型
数值预测模型:回归预测、时序预测等
分类预测模型:逻辑回归、决策树、神经网络、支持向量机等
市场细分:聚类、RFM、PCA等
产品推荐:关联分析、协同过滤等
产品优化:回归、随机效用等
产品定价:定价策略/最优定价等
3、属性筛选/特征选择/变量降维
基于变量本身特征
基于相关性判断
因子合并(PCA等)
IV值筛选(评分卡使用)
基于信息增益判断(决策树使用)
4、训练模型及实现算法
模型原理
算法实现
5、模型评估
评估指标
评估方法
过拟合评估
6、模型优化
优化模型:选择新模型/修改模型
优化数据:新增显著自变量
优化公式:采用新的计算公式
7、模型应用
模型解读
模型部署
模型应用
8、好模型是优化出来的

第二部分:分类模型评估
1、三个方面评估:指标、方法、过拟合
2、两大矩阵
混淆矩阵
代价矩阵
3、六大指标
正确率Accuracy
查准率Precision
查全率Recall
特异度Specify
F度量值(/)
提升指标lift
4、三条曲线
ROC曲线和AUC
PR曲线和BEP
KS曲线和KS值
5、多分类模型评估指标
宏指标:macro_P, macro_R
宏指标:micro_P, micro_R
6、模型评估方法
原始评估法
留出法(Hold-Out)
交叉验证法(k-fold cross validation)
自助采样法(Bootstrapping)
7、其它评估
过拟合评估:学习曲线
残差评估:白噪声评估

第三部分:逻辑回归
问题:如何评估客户购买产品的可能性?如何预测客户行为?
如何预测客户流失?银行如何实现欠贷风险控制?
1、逻辑回归模型简介
2、逻辑回归的种类
二项逻辑回归
多项逻辑回归
3、逻辑回归方程解读
4、带分类自变量的逻辑回归
5、逻辑回归的算法实现及优化
迭代样本的随机选择
变化的学习率
6、逻辑回归+正则项
7、求解算法与惩罚项的互斥关系
8、多元逻辑回归处理
ovo
ovr
9、逻辑回归建模过程
案例:用sklearn库实现银行贷款违约预测
案例:订阅者用户的典型特征(二元逻辑回归)
案例:通信套餐的用户画像(多元逻辑回归)

第四部分:决策树
1、分类决策树简介
演练:识别银行欠货风险,提取欠贷者的特征
2、决策树的三个关键问题
最优属性选择
熵、基尼系数
信息增益、信息增益率
属性最佳划分
多元划分与二元划分
连续变量最优划分
决策树修剪
剪枝原则
预剪枝与后剪枝
3、构建决策树的算法
C5.0、CHAID、CART、QUEST
各种算法的比较
4、决策树的超参优化
5、决策树的解读
6、决策树建模过程
案例:商场酸奶购买用户特征提取
案例:客户流失预警与客户挽留
案例:识别拖欠银行货款者的特征,避免不良货款
案例:识别电信诈骗者嘴脸,让通信更安全
案例:电力窃漏用户自动识别
第五部分:人工神经网络
1、神经网络简介(ANN)
2、神经元基本原理
加法器
激活函数
3、神经网络的结构
隐藏层数量
神经元个数
4、神经网络的建立步骤
5、神经网络的关键问题
6、BP算法实现
7、MLP多层神经网络
案例:评估银行用户拖欠货款的概率
案例:神经网络预测产品销量
第六部分:线性判别分析(LDA)
1、判别分析简介
基本思想
2、判别分析种类
3、判别分析算法
类间散席
类内散席
4、LDA线性判别模型
5、多分类判别分析
案例:MBA学生录取判别分析
案例:上市公司类别评估
第七部分:最近邻分类(KNN)
1、KNN的基本原理
2、K近邻的关键问题
3、K近邻的实现算法
Brute暴力计算
Kd_tree
Ball_tre
第八部分:朴素贝叶斯分类(NBN)
1、贝叶斯简介
2、贝叶斯分类原理
先验概率和后验概率
条件概率和类概率
3、常见贝叶斯网络
4、计算类别属性的条件概率
5、估计连续属性的条件概率
6、预测分类概率(计算概率)
7、拉普拉斯修正
案例:评估银行用户拖欠货款的概率

第九部分:支持向量机(SVM)
1、支持向量机简介
适用场景
2、支持向量机原理
支持向量
最大边界超平面
3、线性不可分处理
松弛系数
4、非线性SVM分类
5、常用核函数
线性核函数
多项式核
高斯RBF核
核函数的选择原则
6、SMO算法
第十部分:模型集成优化篇
1、模型的优化思想
2、集成模型的框架
Bagging
Boosting
Stacking
3、集成算法的关键过程
弱分类器如何构建
组合策略:多个弱学习器如何形成强学习器
4、Bagging集成算法
数据/属性重抽样
决策依据:少数服从多数
随机森林RandomForest
5、Boosting集成算法
基于误分数据建模
样本选择权重更新
决策依据:加权投票
AdaBoost模型
6、GBDT模型
7、XGBoost模型
8、LightGBM模型

第十一部分:案例实战
1、客户流失预测和客户挽留模型
2、银行欠贷风险预测模型

结束:课程总结与问题答疑。 

咨询电话:
0571-86155444
咨询热线:
  • 微信:13857108608
联系我们