https://www.gravatar.com/avatar/3c36d6726b341ff003490168e1897f84?s=240&d=mp

批量规范化(batch normalization)

  • (Ioffe and Szegedy, 2015),这是一种流行且有效的技术,可持续加速深层网络的收敛速度。
  • 加速深层网络的收敛速度,能够训练更深的网络
  • 从数据处理的灵感来的,使用标准化规范数据(均值为 0,方差为 1),进行正则化
    • 统一参数的数量级
      • 不同层的输出量级不一样,学习率不能适应所有网络层
    • 避免过拟合
  • 方式
    • 每个 batch 中计算均值和标准差,使用 $\frac{x-\mu}{\sigma}$
      • batch 要足够大才能有效和稳定

公式:
$\mathrm{BN}(\mathbf{x}) = \boldsymbol{\gamma} \odot \frac{\mathbf{x} - \hat{\boldsymbol{\mu}}\mathcal{B}}{\hat{\boldsymbol{\sigma}}\mathcal{B}} + \boldsymbol{\beta}.$

深度学习-优化算法

概念

经验风险是训练数据集的平均损失,而风险则是整个数据群的预期损失。

https://s2.loli.net/2025/03/03/Cnt6sF2IwU5hQjo.png

风险也就是深度学习追求的泛化误差,因为不可能获得所有数据所以没有办法解决,所以这里只考虑经验风险误差,也就是训练误差。

深度学习-基础

概述

深度学习

核心要素:

  1. 数据(data)
    1. 样本
    2. 独立同分布
    3. 包含特征(feature)
  2. 模型(model)
  3. 目标函数(objective function)、损失函数:优化的目标
    1. 平方误差
  4. 学习算法(algorithm):优化目标的算法
    2. 梯度下降

学习方式

监督学习

离线学习,输入是从环境取出处理的

交叉编译

编译工具链

本地编译

在当前 PC 编译出来的可执行程序,可在当前 PC 环境中执行。即在当前 PC 环境下编译出了相同 CPU 体系结构的可执行程序。如 x86 PC 编译的可执行程序可运行在 x86 的 CPU 上。