基础

AI 历史上的四次大发展

机器学习

定义

人工智能是一个抽象的概念，机器学习是实现人工智能的一种途径，从数据中分析获得规律，并利用规律对未知数据进行预测、分类或者决策的过程。

核心流程

步骤	说明
1. 准备样本	找到大量样本（如 1 万张汽车图片）
2. 提取特征	对样本提取特征（高度、颜色、发动机等）
3. 选择算法	选择现成的数学公式/模型（CNN 等）
4. 训练模型	将特征数据交给算法学习，获得规律
5. 预测输出	将未知样本特征交给模型，得出结论

案例：汽车识别

选择算法（用算法）：调用现成的 CNN 模型，如 torchvision.models.resnet50()
训练模型（训练算法）：准备 10 万张标注好的图片，喂给模型，调整学习率等超参数
使用训练好的模型（上菜）：保存训练好的模型，如 my_car_detector.pth，加载后即可判断

流程图

输入数据（数据集）
    ↓
算法/模型（数学公式）
    ↓
训练（调整参数）
    ↓
输出结果（预测/分类/决策）

深度学习

与机器学习的区别

维度	机器学习	深度学习
特征工程	手动完成，需要领域专业知识	自动提取，无需人工设计
模型结构	通常为单层或简单结构	多层神经网络，自动学习特征
数据依赖	较少数据即可	需要大量数据

深度学习通常由多个层组成，将更简单的模型组合在一起，通过大量数据的训练自动得到模型。

应用场景

图像识别：

物体识别、场景识别、车型识别
人脸检测跟踪、人脸关键点定位、人脸身份认证

自然语言处理：

机器翻译、文本识别、聊天对话

语音技术：

语音识别

神经网络

定义

神经网络（Neural Network，NN）是深度学习的重要算法，全称人工神经网络（ANN），是一种模仿生物神经网络结构，和功能的计算模型。

神经元

人脑由神经元组成：

树突：接受传入信息
细胞核：接收信号并处理
轴突：将处理结果传出
突触：神经元之间的连接位置

网络结构

输入层 → 隐藏层 → 输出层

层	说明
输入层	输入数据
隐藏层	可为多层，多少层都可以
输出层	输出结果

推荐体验：TensorFlow Playground - 谷歌神经网络可视化网站

大语言模型

定义

大语言模型（Large Language Model，LLM）是专门设计用于自然语言处理领域的特殊深度神经网络。

特点

特点	说明
训练数据大	使用海量文本数据进行训练
规模大	参数规模巨大（数十亿到万亿级）
算力大	需要大量 GPU/TPU 计算资源
泛化能力强	预训练模型具备广泛任务能力

为什么近几年大模型兴起

因素	说明
硬件进步	GPU、TPU 等高性能计算设备普及
算法优化	Transformer 架构提出，提升长序列处理能力
数据爆炸	互联网文本、图像、视频数据激增
分布式训练	PyTorch、TensorFlow 等框架成熟

常见大模型

模型	公司	开源/闭源	主要特点
DeepSeek	深度求索	开源	强大推理与 Agent 能力，完全免费
通义千问	阿里巴巴	开源	顶级开源编程模型，超大上下文
文心4.5	百度	开源	多模态 MoE 架构，高效训练推理
豆包	字节跳动	部分开源	商业化导向，强调性价比
腾讯混元	腾讯	部分开源	多模态与 3D 生成能力突出
Kimi K2	月之暗面	开源	强大思考与浏览能力
GPT 系列	OpenAI	主要闭源	行业标杆，集成智能体能力
Claude 系列	Anthropic	闭源	注重安全与对齐，长上下文
LLaMA 系列	Meta	开源	全球最主流开源模型基石
Gemini 系列	Google	主要闭源	原生多模态设计

开源 vs 闭源

开源大模型	闭源大模型
✅ 代码、数据、训练流程公开	❌ 黑箱操作，无法验证内部逻辑
✅ 支持微调、领域适配	❌ 仅限 API 功能，无法修改模型
✅ 可本地部署，长期成本固定	❌ 按使用量付费，大规模应用成本高
⚠️ 受限于社区资源	✅ 依托大厂算力与数据，能力更强
⚠️ 需自行管理基础设施	✅ 供应商负责运维
✅ 数据完全本地化，满足隐私要求	❌ 依赖第三方 API，存在泄露风险

通用基础大模型 vs 行业垂直大模型

类型	说明
通用基础大模型	通用的基础能力，适用于各种任务
行业垂直大模型	在通用模型基础上，训练专业垂直领域模型

当前 60% 的企业通过垂类行业大模型实现 AI 在行业的应用布局。

大模型微调

当模型在某些领域不专业时，可以进行微调：

下载预训练模型 → 准备训练数据集 → 使用 LLaMA-Factory 框架训练 → 测试

大模型应用与趋势

应用领域

金融、医疗、工业、教育、科研、媒体、通信、政务、营销、交通、文娱、城市治理、传媒、法律、汽车、校对、运维等各行各业。

典型场景

智能客服、智能搜索、智能营销、智能问答、智能风控、虚拟数字人、代码助手、智慧办公、资产管理、产品研发、政务咨询、业务办理、舆情监控、公文写作、智慧医疗、健康诊疗知识库等。

发展趋势

技术突破：

模型规模进一步扩大
模型效率提升
多模态能力增强
可解释性和透明性提升

应用落地：

定制化和专用化，行业大模型爆发
边缘端部署
UGC + AIGC 生态融合

挑战

挑战	说明
安全问题	伦理安全、数据治理、人机协作
均衡问题	资源消耗、环境影响、技术普及不均衡

AI 历史上的四次大发展​

机器学习​

定义​

核心流程​

案例：汽车识别​

流程图​

深度学习​

与机器学习的区别​

应用场景​

神经网络​

定义​

神经元​

网络结构​

大语言模型​

定义​

特点​

为什么近几年大模型兴起​

常见大模型​

开源 vs 闭源​

通用基础大模型 vs 行业垂直大模型​

大模型微调​

大模型应用与趋势​

应用领域​

典型场景​

发展趋势​

挑战​