机器学习及Python应用培训
机器学习及Python应用
第1讲 机器学习引论
(1) 什么是机器学习
(2) 机器学习的分类与术语
(3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶
第2讲 Python语言快速入门
(1) Why Python?
(2) 安装Python与Spyder
(3) Python的模块(module)
(4) Python的对象(str, bool, list, tuple, dict, set)
(5) Python的函数(function)与方法(method)
(6) Numpy(ndarray), pandas(Series, DataFrame)
(7) sklearn(机器学习)与keras(深度学习)
(8) Python画图(Matplotlib, pandas, seaborn)
(9) Python面向对象编程
第3讲 数学回顾
(1) 梯度向量
(2) 方向导数
(3) 梯度下降
(4) 向量微分
(5) 最优化
第4讲 线性回归
(1) OLS
(2) 过拟合与泛化能力
(3) 偏差与方差的权衡
(4) 交叉验证
(5) Python案例:多项式回归的过拟合;波士顿房价
第5讲 逻辑回归
(1) Logit
(2) 几率比
(3) 灵敏度与特异度
(4) ROC与AUC
(5) 科恩的kappa
(6) Python案例:泰坦尼克号旅客的存活
第6讲 多项逻辑回归
(1) 多项Logit
(2) Python案例:识别玻璃类别
第7讲 判别分析
(1) 线性判别分析(Linear Discriminant Analysis)
(2) 二次判别分析(Quadratic Discriminant Analysis)
(3) 费雪判别分析(Fisher Discriminant Analysis)
(4) Python案例:鸢尾花品种的归类
第8讲 朴素贝叶斯
(1) 朴素贝叶斯(Naive Bayes)
(2) 拉普拉斯修正(Laplacian Correction)
(3) Python案例:垃圾邮件的识别
第9讲 惩罚回归
(1) 高维回归的挑战
(2) 岭回归(Ridge Regression)
(3) 套索估计(Lasso)
(4) 弹性网估计(Elastic Net)
(5) Python案例:前列腺癌的影响因素
第10讲 K近邻法
(1) 回归问题的K近邻法
(2) 分类问题的K近邻法
(3) Python案例:摩托车撞击实验数据;鸢尾花品种的归类;威斯康辛乳腺癌的诊断
第11讲 决策树
(1) 分类树(Classification Tree)
(2) 分裂准则(错分率、基尼指数、信息熵)
(3) 成本复杂性修枝
(4) 回归树(Regression Tree)
(5) Python案例:波士顿房价;葡萄牙银行市场营销
第12讲 随机森林
(1) 集成学习(Ensemble Learning)
(2) 装袋法(Bagging)
(3) 随机森林(Random Forest)
(4) 变量重要性(Variable Importance)
(5) 偏依赖图(Partial Dependence Plot)
(6) Python案例:波士顿房价;声呐信号的分类
第13讲 提升法
(1) 自适应提升法 (AdaBoost)
(2) AdaBoost的统计解释
(3) 梯度提升法 (Gradient Boosting Machine)
(4) XGBoost算法
(5) Python案例:波士顿房价;过滤垃圾邮件;识别玻璃类别
第14讲 支持向量机
(1) 最大间隔分类器(Maximal Margin Classifier)
(2) 软间隔分类器(Soft Margin Classifier)
(3) 支持向量机(Support Vector Machine)
(4) 核技巧(Kernel Trick)
(5) 支持向量回归(Support Vector Regression)
(6) Python案例:模拟数据;过滤垃圾邮件;识别手写数字;波士顿房价
第15讲 人工神经网络
(1) 人工神经网络的思想
(2) 感知机(Perceptron)
(3) 前馈神经网络(Feedforward Neural Network)
(4) 激活函数(Activation Function)
(5) 反向传播算法(Back-propagation Algorithm)
(6) 随机梯度下降(Stochastic Gradient Descent)
(7) 神经网络的过拟合与正则化
(8) 卷积神经网络(Convolution Neural Network)
(9) 深度学习的发展
(10) Python案例(sklearn与Keras):
波士顿房价;过滤垃圾邮件;模拟数据;路透社新闻主题分类,手写数字数据集MNIST
第16讲 非监督学习之主成分分析
(1) 总体中的主成分分析
(2) 样本中的主成分分析
(3) 方差分解与降维
(4) 主成分回归(Principal Component Regression)
(5) Python案例:左右耳听力;香港回归的经济效应
第17讲 非监督学习之聚类分析
(1) K-均值聚类(K-means Clustering)
(2) 分层聚类(Hierarchical Clustering)
(3) 树状图
(4) 基于相关系数的距离
(5) Python案例:模拟数据;鸢尾花品种的归类
第18讲 数据科学的Python语言
(1) 何为数据科学
(2) 读写文件
(3) 缺失与重复数据
(4) 合并数据
(5) sklearn的管线类(pipeline class)
(6) Python案例:Kaggle泰坦尼克数据的清理
第19讲(Bonus Lecture) 机器学习在经管社科的应用