课程编号:32149
课程价格:¥26000/天
课程时长:5 天
课程人气:605
行业类别:行业通用
专业类别:大数据
授课讲师:傅一航
第一部分:预测建模基础 1、数据建模六步法 选择模型:基于业务选择恰当的数据模型 属性筛选:选择对目标变量有显著影响的属性来建模 训练模型:采用合适的算法,寻找到最合适的模型参数 评估模型:进行评估模型的质量,判断模型是否可用 优化模型:如果评估结果不理想,则需要对模型进行优化 应用模型:如果评估结果满足要求,则可应用模型于业务场景 2、数据挖掘常用的模型 数值预测模型:回归预测、时序预测等 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等 市场细分:聚类、RFM、PCA等 产品推荐:关联分析、协同过滤等 产品优化:回归、随机效用等 产品定价:定价策略/最优定价等 3、属性筛选/特征选择/变量降维 基于变量本身特征 基于相关性判断 因子合并(PCA等) IV值筛选(评分卡使用) 基于信息增益判断(决策树使用) 4、训练模型及实现算法 模型原理 算法实现 5、模型评估 评估指标 评估方法 过拟合评估 6、模型优化 优化模型:选择新模型/修改模型 优化数据:新增显著自变量 优化公式:采用新的计算公式 7、模型应用 模型解读 模型部署 模型应用 8、好模型是优化出来的
第二部分:分类模型评估 1、三个方面评估:指标、方法、过拟合 2、两大矩阵 混淆矩阵 代价矩阵 3、六大指标 正确率Accuracy 查准率Precision 查全率Recall 特异度Specify F度量值(/) 提升指标lift 4、三条曲线 ROC曲线和AUC PR曲线和BEP KS曲线和KS值 5、多分类模型评估指标 宏指标:macro_P, macro_R 宏指标:micro_P, micro_R 6、模型评估方法 原始评估法 留出法(Hold-Out) 交叉验证法(k-fold cross validation) 自助采样法(Bootstrapping) 7、其它评估 过拟合评估:学习曲线 残差评估:白噪声评估
第三部分:逻辑回归 问题:如何评估客户购买产品的可能性?如何预测客户行为? 如何预测客户流失?银行如何实现欠贷风险控制? 1、逻辑回归模型简介 2、逻辑回归的种类 二项逻辑回归 多项逻辑回归 3、逻辑回归方程解读 4、带分类自变量的逻辑回归 5、逻辑回归的算法实现及优化 迭代样本的随机选择 变化的学习率 6、逻辑回归+正则项 7、求解算法与惩罚项的互斥关系 8、多元逻辑回归处理 ovo ovr 9、逻辑回归建模过程 案例:用sklearn库实现银行贷款违约预测 案例:订阅者用户的典型特征(二元逻辑回归) 案例:通信套餐的用户画像(多元逻辑回归)
第四部分:决策树 1、分类决策树简介 演练:识别银行欠货风险,提取欠贷者的特征 2、决策树的三个关键问题 最优属性选择 熵、基尼系数 信息增益、信息增益率 属性最佳划分 多元划分与二元划分 连续变量最优划分 决策树修剪 剪枝原则 预剪枝与后剪枝 3、构建决策树的算法 C5.0、CHAID、CART、QUEST 各种算法的比较 4、决策树的超参优化 5、决策树的解读 6、决策树建模过程 案例:商场酸奶购买用户特征提取 案例:客户流失预警与客户挽留 案例:识别拖欠银行货款者的特征,避免不良货款 案例:识别电信诈骗者嘴脸,让通信更安全 案例:电力窃漏用户自动识别 第五部分:人工神经网络 1、神经网络简介(ANN) 2、神经元基本原理 加法器 激活函数 3、神经网络的结构 隐藏层数量 神经元个数 4、神经网络的建立步骤 5、神经网络的关键问题 6、BP算法实现 7、MLP多层神经网络 案例:评估银行用户拖欠货款的概率 案例:神经网络预测产品销量 第六部分:线性判别分析(LDA) 1、判别分析简介 基本思想 2、判别分析种类 3、判别分析算法 类间散席 类内散席 4、LDA线性判别模型 5、多分类判别分析 案例:MBA学生录取判别分析 案例:上市公司类别评估 第七部分:最近邻分类(KNN) 1、KNN的基本原理 2、K近邻的关键问题 3、K近邻的实现算法 Brute暴力计算 Kd_tree Ball_tre 第八部分:朴素贝叶斯分类(NBN) 1、贝叶斯简介 2、贝叶斯分类原理 先验概率和后验概率 条件概率和类概率 3、常见贝叶斯网络 4、计算类别属性的条件概率 5、估计连续属性的条件概率 6、预测分类概率(计算概率) 7、拉普拉斯修正 案例:评估银行用户拖欠货款的概率
第九部分:支持向量机(SVM) 1、支持向量机简介 适用场景 2、支持向量机原理 支持向量 最大边界超平面 3、线性不可分处理 松弛系数 4、非线性SVM分类 5、常用核函数 线性核函数 多项式核 高斯RBF核 核函数的选择原则 6、SMO算法 第十部分:模型集成优化篇 1、模型的优化思想 2、集成模型的框架 Bagging Boosting Stacking 3、集成算法的关键过程 弱分类器如何构建 组合策略:多个弱学习器如何形成强学习器 4、Bagging集成算法 数据/属性重抽样 决策依据:少数服从多数 随机森林RandomForest 5、Boosting集成算法 基于误分数据建模 样本选择权重更新 决策依据:加权投票 AdaBoost模型 6、GBDT模型 7、XGBoost模型 8、LightGBM模型
第十一部分:案例实战 1、客户流失预测和客户挽留模型 2、银行欠贷风险预测模型
结束:课程总结与问题答疑。