当前位置: 首页 > 内训课程 > 课程内容
广告1
相关热门公开课程更多 》
相关热门内训课程更多 》
相关最新下载资料

使用python做数据分析

课程编号:29156

课程价格:¥23000/天

课程时长:5 天

课程人气:338

行业类别:行业通用     

专业类别:大数据 

授课讲师:孙增辉

  • 课程说明
  • 讲师介绍
  • 选择同类课
【培训对象】
有数据库基础知识 有编程基础知识 有统计学基本知识 有数据分析、数据挖掘、统计分析的基本概念 对数据分析感兴趣

【培训收益】


第1天
主题 Python的优点和不足
大纲 优点
1、python语言更接近自然语言
2、python是开放源码的自由软件
3、python可移植在各种平台上
4、python支持面向过程的函数编程,也支持面向对象的抽象编程
5、可扩展和可嵌入
6、各种功能丰富的库
7、编码规范。各种强制缩进方式提供了可读性。
不足
8、运行速度可能不理想。
9、python是开源软件,通过封装加密进行商业化,就是一个问题。
10,、繁多的标准库和第三方库
主题 重要的python库
大纲 1、NumPy (numerical python)
2、Pandas 处理结构化数据的大量数据结构和函数
3、Matplotlib 绘制数据图表
4、IPython 交互式窗口,科学计算工具集的一部分
5、SciPy 专门解决科学计算中,标准问题域的包的集合。
6、Scikit-learn 机器学习库
主题 Python的安装和配置
大纲 1、anaconda
2、Windows系统下的安装
3、Linux系统下的安装
主题 Ipython基础
大纲 1、IPython交互式计算和开发环境
2、Ipython启动、简单命令
3、内省
4、使用历史命令
5、与操作系统交互
6、软件开发工具
7、ipython html notebook
8、用ipython提高代码开发效率
9、ipython高级功能
主题 Ipython编码效率与高级功能
大纲 1、利用python提高代码效率的几点提示
2、高级Ipython功能
第2天
主题 numpy数组和矢量计算
大纲 1、NumPy的ndarray:多维数组
2、通用函数 数组函数
3、利用数组进行数据处理
4、用于数组文件的输入输出
5、线性代数
6、随机数生产
7、随机漫步
主题 pandas 数据处理分析工具
大纲 1、pandas的数据结构介绍
2、基本功能
3、汇总和计算描述统计
4、处理缺失数据
5、层次化索引
6、其他有关pandas的话题
主题 数据加载 转储
大纲 1、读写文本格式的数据
2、二进制数据格式
3、使用HTML和Web API
4、使用数据库
5、使用excel文件
6、使用hadoop大数据
主题 简单数据清洗
大纲 1、合并数据集
2、重塑和轴向旋转
3、数据转换
4、字符串操作
主题 python的绘图和可视化
大纲 1、python的图形化工具生态系统
2、matplotlib API入门
3、pandas中的绘图函数
4、绘制地图
第3天
主题 数据的分组计算--分层样本
大纲 1、GroupBy技术
2、数据聚合
3、分组运算和转换
4、透视表和交叉表
主题 时间序列
大纲 1、日期和时间数据类型及工具
2、时间序列基础
3、日期的范围、频率以及移动
4、时区处理
5、时期及其算数运算
6、重采样及频率转换
7、时间序列绘图
8、移动窗口函数
9、性能和内存使用方面的注意事项
主题 numpy高级应用
大纲 1、ndarray对象的内部机制
2、高级数组操作
3、广播
4、ufunc高级应用
5、结构化和记录式数组
6、关于排序
7、numpy的matrix类
8、高级数组输入输出
9、性能建议
主题 蒙特卡洛模拟
大纲 1、纯python
2、用numpy向量化
3、用对数欧拉方法实现全向量化
4、图形化分析
5、技术分析
主题 统计学 正态检验
大纲 1、正态性检验
2、基准案例
3、现实世界的数据
第4天
主题 金融应用 投资优化组合
大纲 1、基本理论
2、数据
3、投资组合优化
4、有效边界
5、资本市场线
主题 k 近邻算法
大纲 1、k近邻算法概述
2、准备数据:从文本文件中解析数据
3、分析数据:使用matplotlib创建散点图
4、准备数据:归一化数值
5、测试算法:作为完整程序验证分类器
6、使用算法:构建完整可用的系统
主题 决策树
大纲 1、决策树的构造
信息增益
划分数据集
递归构建决策树
2、使用matplotlib注解绘制树形图
matplotlib注解
构造注解树
3、测试和存储分类器
测试算法:使用决策树执行分类
使用算法:决策树的存储
主题 概率论 朴素贝叶斯
大纲 1、基于贝叶斯决策理论的分类方法
2、条件概率
3、使用条件概率来分类
4、使用朴素贝叶斯进行文档分类
5、使用python进行文本分类
主题 Logistic 回归分析
大纲 1、基于Logistic回归和sigmoid函数的分类
2、基于最优化方法的 最佳回归系数确定
梯度上升法
训练算法:使用梯度上升找到最佳参数
分析数据:画出决策边界
训练算法:随机梯度上升
第5天
主题 支持向量机
大纲 1、SVM应用的一般框架
2、基于最大间隔分隔数据
3、寻找最大间隔
4、SMO高效优化算法
5、利用完整plattSMO算法加速优化
6、在复杂数据上应用核函数
主题 回归 ----- 预测数值型数据
大纲 1、用线性回归找到最佳拟合直线
2、局部加权线性回归
3、缩减系数来“理解”数据
岭回归
lasso
向前逐步回归
4、权衡偏差与方差
主题 树回归
大纲 1、复杂数据的局部性建模
2、连续和离散型特征的树的构建
3、将CART算法用于回归
构建树 运行代码
4、树剪枝
预剪枝 后剪枝
5、模型树
6、树回归与标准回归的比较
主题 大数据与mapreduce
大纲 1、mapreduce:分布式计算框架
2、hadoop流
3、mapreduce上的机器学习
4、在python中使用mrjob来自动化MapReduce
5、真的需要MapReduce吗?

 

咨询电话:
0571-86155444
咨询热线:
  • 微信:13857108608
联系我们