Google 机器学习速成课程笔记

课程地址:https://developers.google.cn/machine-learning/crash-course/

术语

  1. 标签、特征、样本、模型的概念
  2. 模型生命周期的两个阶段:
    1. 训练/学习
    2. 推断
  3. 回归与分类:
    1. 回归:预测连续值
    2. 分类:预测离散值

降低损失

  1. 降低损失的方法:迭代
  2. 一种具体的算法:梯度下降
  3. 学习速率:优化使得模型快速收敛
  4. 大量样本
    1. 随机梯度下降 SGD: 每次迭代使用一个随机选择的一个样本
    2. 小批量随机梯度下降: 每次迭代使用多个随机选择的样本

泛化

  1. 基本假设
    1. 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i.d. 是表示变量随机性的一种方式)。
    2. 分布是平稳的;即分布在数据集内不会发生变化。
    3. 我们从同一分布的数据划分中抽取样本。
  2. 拆分数据集:训练、验证、测试

数据表示

  1. 原始数据 -> 特征矢量
    1. 映射数值-向量:6.0 -> [6.0]
    2. 映射字符串/类别-独热编码:{'abc','bca','cba'}, 'abc'-> [1,0,0]
  2. 良好特征特点
    1. 避免很少使用的离散特征值
    2. 最好具有清晰明确的含义
    3. 不要将“神奇”的值与实际数据混为一谈
    4. 考虑上游不稳定性
  3. 了解数据
    1. 最大最小
    2. 均值中位数
    3. 标准差
  4. 数据清洗
    1. 缩放特征值到[0,1]或[-1,1]
    2. 处理极端离群值
    3. 分箱->独热
  5. 清查
    1. 遗漏值
    2. 重复样本
    3. 不良标签
    4. 不良特征值

正则化

  1. L2正则化:简单性
  2. L0, L1 正则化:稀疏性,但L1能凸优化

分类

  1. 阈值:用于判定类别
  2. 准确率:Accuracy = (TP+TN)/(TP+TN+FN+FP), 对分了不平很数据不够全面
  3. 精确率和召回率
    1. 精确率:Precission = f(T|P) = TP/(TP+FP), 预测为P时,P为T的比例
    2. 召回率:Recall = TP/(TP+FN),在所有正类中,被正确识别的正类比例
  4. ROC和曲线下面积
    1. 真正利率/召回 TPR = TP/(TP+FN)
    2. 假正利率 FPR = FP/(FP+TN)
    3. 曲线下面积[0,1]:面积为模型正确识别的
    4. 作用:对分类阈值效果进行综合很亮,可看作模型将某个随机正类样本排列在某个随机负类样本之上的概率。
    5. 性质:曲线下面积尺度不变、分类阈值不变
  5. 偏差:预测偏差、分桶偏差

神经网络

嵌入

词典矩阵 X 稀疏张量 = 嵌入矢量

Comments
Write a Comment