调教神经网络的方法

问题引入

过拟合

现象	说明
训练数据上表现完美	损失值最小，每一个点都穿过
新数据上表现糟糕	预测不准确，泛化能力差

过拟合：在训练数据上表现很完美，但在没见过的数据上表现很糟糕的现象。

泛化能力

定义：模型在没见过的数据上的表现能力。

对比	训练数据	新数据
过拟合模型	完美	差
适度拟合模型	较好	较好

一、数据增强

问题原因

训练数据本身是简单规律，但模型太复杂，把噪声和随机波动也学会了。

解决方案

方法	说明
简化模型复杂度	不是越大越好
增加训练数据量	数据量足够，复杂模型也变简单

数据增强技术

对图像进行变换，创造更多训练样本：

技术	说明
旋转	改变图像角度
翻转	水平或垂直镜像
裁剪	随机裁剪区域
变色	调整亮度、对比度
噪声	添加随机噪声

鲁棒性

数据增强不仅能产生更多数据，还能让模型不因输入的微小变化而产生大波动，增强模型的鲁棒性。

二、正则化

核心思想

通过在损失函数中添加惩罚项，抑制参数的野蛮增长。

原理

新损失函数 = 损失函数 + 惩罚项

惩罚项类型	公式	名称
绝对值之和	Σ\|wᵢ\|	L1 正则化
平方和	Σwᵢ²	L2 正则化

作用机制

当参数往大了调整时，如果让损失函数减小得不够多，导致新损失函数变大，则调整不合适。

一定程度上抑制了参数的野蛮增长。

超参数

概念	说明
正则化系数	控制惩罚项的力度
超参数	控制参数的参数（需手动设置）

L1 与 L2 范数

类型	公式	特点
L1 范数	\|w\| 的绝对值之和	会让参数趋近于 0（稀疏化）
L2 范数	\|w\| 的平方和开方	让参数均匀趋近于 0

三、Dropout

核心思想

训练过程中随机丢弃一部分参数，让模型不过度依赖少量参数。

比喻

角色	比喻
普通参数	普通士兵
异常强大的参数	战斗力极强的"闪客"
Dropout	让闪客偶尔缺席

原理

问题	解决方案
过度依赖某几个参数	每次训练随机丢弃一部分参数
闪客主导战局	让闪客缺席，模型学会依赖更多普通士兵

让模型必须依赖更多的参数，避免在某些关键参数上过度集中。

四、其他问题与对策

问题一览

问题	说明
梯度消失	网络越深，梯度反向传播时越来越小，参数更新困难
梯度爆炸	梯度数值越来越大，参数调整幅度失控
收敛速度	陷入局部最优或来回震荡
计算开销	数据量庞大，每次完整训练很耗时

解决方案

问题	解决方案
梯度更新过大	梯度裁剪
深层网络梯度衰减	残差网络
梯度分布不平滑	权重初始化、归一化
收敛慢	动量法、RMSProp、Adam 等自适应优化器
计算开销大	Mini-batch 分批次训练

五、深度学习发展脉络

技术	说明
CNN	卷积神经网络，利用卷积层、池化层处理图像
RNN	循环神经网络，利用上下文处理序列数据
GAN	生成对抗网络
Transformer	引入注意力机制
GPT 系列	大语言模型
ChatGPT	对话模型
DeepSeek	国产大模型

六、总结

过拟合应对策略

策略	方法
数据层面	数据增强：旋转、翻转、裁剪、变色
模型层面	简化模型复杂度、Dropout
训练层面	提前终止、L1/L2 正则化
参数层面	惩罚项抑制参数野蛮增长

核心思想

深度学习不是神经网络足够大就能包打天下，正是由于各种困境的出现，人们才想出了各种应对策略。

这门学问确实像是一门"玄学"，但每个技巧都是为了让训练过程更好。

问题引入​

过拟合​

泛化能力​

一、数据增强​

问题原因​

解决方案​

数据增强技术​

鲁棒性​

二、正则化​

核心思想​

原理​

作用机制​

超参数​

L1 与 L2 范数​

三、Dropout​

核心思想​

比喻​

原理​

四、其他问题与对策​

问题一览​

解决方案​

五、深度学习发展脉络​

六、总结​

过拟合应对策略​

核心思想​

问题引入

过拟合

泛化能力

一、数据增强

问题原因

解决方案

数据增强技术

鲁棒性

二、正则化

核心思想

原理

作用机制

超参数

L1 与 L2 范数

三、Dropout

核心思想

比喻

原理

四、其他问题与对策

问题一览

解决方案

五、深度学习发展脉络

六、总结

过拟合应对策略

核心思想