route

机器学习路线

  • 机器学习简介

  • 第一个机器学习实例

  • Logistic回归分析及神经网络

  • 支持向量机(SVM)

  • 降维与矩阵分解

  • 聚类

  • 特征工程

  • 决策树及基于树的集成模型:随机森林

  • 梯度提升决策树(GBDT)

  • 推荐系统与广告点击率(CTR)预估(1)

  • 推荐系统与广告点击率(CTR)预估(2)

  • 模型融合

01

机器学习简介

  • 机器学习定义

  • 机器学习行业应用举例

  • 机器学习任务:分类、回归、聚类、降维、半监督学习、迁移学习、强化学习

  • 机器学习算法的组成部分:目标函数(损失函数+正则)、优化方法

  • 模型评估和模型选择:模型复杂度、overfitting、交叉验证、超参数空间、网格搜索…

  • 案例:波士顿房价。包含内容——损失函数、L1/L2正则、最小二乘、梯度下降/随机梯度下降。

  • 课程目标:熟悉机器学习领域的常用术语,了解机器学习在AI环境中的位置。

02

第一个机器学习实例

  • 学习环境配置:常用软件、环境配置及机器学习库;anaconda:Python、Python科学计算包(NumPy,SciPy,Pandas)、Python数据可视化工具包(Matplotlib, seaborn)、Python机器学习库(scikit-learn);

  • 特征工程初步;

  • 线性回归实现。

  • 案例:波士顿房价预测案例详解。包含内容——数据集探索(Pandas、seaborn);复习模型评估和模型选择:交叉验证、网格搜索(Sklearn)。

  • 课程目标:学会用机器学习工具包从头到尾用线性回归解决一个实际问题。

03

Logistic回归分析及神经网络

  • 损失函数:logistic损失;

  • 优化算法:IRLS(梯度下降、牛顿法)、BP算法;

  • 正则化:L1/ L2;

  • 复习模型评估。

  • 案例:Otto商品分类。包含内容——用Logistic回归和神经网络实现Otto商品分类。

  • 课程目标:理解分类任算法Logistic回归和神经网络原理,复习数据集探索,并学会用sklearn用Logistic回归和(浅层)神经网络实现分类任务。

04

支持向量机(SVM)

  • 损失函数:Hingloss损失;

  • 优化算法:SOM(神经网络聚类算法)、支持向量机——SMO(序列最小最优化算法);

  • 正则化:L2/L1;

  • 其他:最小间隔、核方法、支持向量回归。

  • 案例:用SVM实现Otto商品分类,重点比较SVM(不同参数正则参数和核函数)与Logistic回归。

  • 课程目标:学会用SVM模型分类任务。

05

降维与矩阵分解

  • 主成分分析(PCA);

  • 独立成分分析(ICA);

  • 非负矩阵分解(NFM);

  • 隐因子模型(LFM)。

  • 案例:人脸图像特征提取:PCA、ICA、NFM、LFM在推荐系统部分案例进行讲解。

  • 课程目标:学习用降维技术对高维特征进行降维。

06

聚类

  • Kmeans聚类和混合高斯模型GMM(EM算法);

  • 吸引子传播聚类算法(Affinity Propagation聚类算法);

  • Density Peak聚类算法。

  • 案例:1. Iris数据聚类分析:Kmeans、AP what makes Paris;2. Paris: 判别特征发现:聚类分类迭代(SVM、Kmeans)。

  • 课程目标:学会常用的聚类算法。

07

特征工程

  • 数据预处理;

  • 特征编码:标签编码、Dummy (One hot) 编码、后验均值编码;

  • 特征组合;

  • 特征选择。

  • 案例:Rent Listing Requries数据探索及特征工程。

  • 数据预处理:缺失值处理、异常值处理、数据相关性分析、数据可视化特征编码。

  • 课程目标:学会数据预处理常用方法及特征编码方法。

08

决策树及基于树的集成模型:随机森林

  • 损失函数:Gini系数;

  • 正则:L1/L2正则、及早停止;

  • 优化:分裂;

  • Bagging &随机森林。

  • 案例:蘑菇分类。包含内容——决策树、随机森林、Logistic回归、参数调优和网格搜索。

  • 课程目标:学习Bagging集成思想及基于决策树的集成算法——随机森林。

09

梯度提升决策树(GBDT)

  • 第一个Boosting算法:AdaBoost;

  • 流行GBDT模型:xgboost、lightGBM。

  • 案例:Otto商品分类。包含内容——xgboost及参数调优。

  • 课程目标:学会kaggle神器xgboost原理及其在实例任务上的应用。

10

推荐系统与广告点击率(CTR)预估(1)

  • 协同过滤(Collaborative filtering,CF);

  • 基于内容的过滤;

  • FFM & LFM;

  • 关联规则。

  • 案例:Expedia Hotel Recommendations。

  • 课程目标:学习推荐系统和CTR预估的基本技术。

11

推荐系统与广告点击率(CTR)预估(2)

  • 排序学习;

  • 模型评估。

  • 案例:Expedia Hotel Recommendations。

  • 课程目标:通过实际案例学会推荐系统实现。

12

模型融合

  • Blending;

  • Stacking。

  • 案例:Otto商品分类/Expedia Hotel Recommendations:Stacking。

  • 课程目标:准备做一只机器学习大咖。

最后更新于

这有帮助吗?