深度学习

简介

一、核心背景(顶层红色文字)

“机器学习在处理图像和文本数据方面,能力较弱”

image-20260303204306124

这是整个知识点的前提:传统机器学习(如逻辑回归、SVM、随机森林)擅长处理结构化数据(如表格、数值),但对非结构化数据 (多维)(图像、文本、语音)的特征提取能力不足 —— 无法自动捕捉图像的边缘 / 纹理、文本的上下文语义,因此需要专门的深度学习模型来解决。

image-20260303205723891

二、两大核心解决方案(架构对应与分工)

图片通过绿色箭头,将两种非结构化数据与对应的神经网络一一匹配,实现了 “问题 - 解法” 的精准对应:

表格

数据类型 对应模型 英文全称 核心定位
图像 CNN(卷积神经网络) Convolutional Neural Network 专攻空间特征提取(如图像的形状、颜色、局部纹理)
文本 RNN(循环神经网络) Recurrent Neural Network 专攻时序特征提取(如文本的上下文顺序、语义关联)

三、模型核心结构(技术底层)

两种网络的核心层分工明确,分别适配对应数据的特性:

  1. CNN 的核心层

    • 卷积层:核心层,通过卷积核滑动提取图像的局部特征(如边缘、角点),实现 “权值共享”,减少模型参数;
    • 池化层:下采样层,压缩特征图尺寸,保留关键特征的同时降低计算量(如最大池化、平均池化);
    • 全连接层:收尾层,将提取的局部特征整合,输出最终分类 / 检测结果。
  2. RNN 的核心层

    • 词嵌入层:将离散的文字 / 词语转化为连续的数值向量(Embedding),让模型能理解文本的语义;
    • 循环网络层:核心层,通过 “循环反馈” 机制,保留前一时刻的文本信息,捕捉上下文关联;
    • 全连接层:整合时序特征,输出文本生成、分类等结果。

四、典型应用案例(实践落地)

图片给出了最经典的入门级案例,直观体现模型的实际用途:

  1. CNN 案例:图像分类(CIFAR10 数据集)

    CIFAR10 是计算机视觉入门标杆数据集,包含 10 类常见物体(如飞机、汽车、猫、狗)的彩色小图像,CNN 是解决该数据集分类问题的标准模型。

  2. RNN 案例:歌词 AI 生成器

    利用 RNN 的时序记忆能力,学习歌词的韵律、句式和上下文逻辑,从而自动生成符合风格的歌词,是文本生成任务的典型入门场景。

补充说明(知识拓展)

这张图是入门级简化梳理,实际应用中已有更优方案:

  • 图像领域:CNN 已发展出 ResNet、ViT(视觉 Transformer)等更强大的模型;
  • 文本领域:RNN 存在 “长序列梯度消失” 问题,目前主流用 LSTM、GRU(RNN 的改进版)或 Transformer(大语言模型的核心)替代。

五、深度学习特点

image-20260303210220091

image-20260303210157503

六、深度学习计算框架

  • PyTorch:目前非常主流的深度学习框架,以动态计算图、易用性和灵活性著称,在学术界和工业界都被广泛使用,尤其适合研究和快速原型开发。
  • TensorFlow:被标注为 “旧版框架”,它是 Google 推出的老牌框架,以静态计算图和生产部署能力见长,现在更多被其升级版本 KerasTensorFlow 2.x 所继承使用。

七、 Transformer 模型

  • 这是深度学习领域的里程碑式架构,核心是自注意力机制(Self-Attention),能够同时处理序列中的所有位置,解决了 RNN 等模型难以处理长序列的问题。
  • 它的应用场景非常广泛,包括:
    • 机器翻译(如 Google Translate 的核心)
    • 文本摘要、问答系统
    • 大语言模型(如 GPT、BERT 系列)
    • 计算机视觉(如 ViT,Vision Transformer)

应用场景

一、计算机视觉(Computer Vision)

这是深度学习在图像、视频等视觉数据上的应用,核心是让机器 “看懂” 世界。

  1. 图像分类

    • 定义:将输入图像划分到预定义的类别中。
    • 应用:人脸识别、物体检测、社交媒体照片自动标注、医疗影像中的病变检测(如 CT、X 光片识别病灶)。
  2. 目标检测(Object Detection)

    • 定义:在图像或视频中同时完成 “定位”(找到物体位置)和 “分类”(识别物体是什么)两个任务。
    • 应用:自动驾驶中的行人 / 车辆检测、监控视频中的入侵检测、电商商品识别。
  3. 面部识别

    • 定义:通过提取和比对面部特征点,完成身份验证或人脸分类。
    • 应用:手机人脸解锁、安防监控系统、机场 / 车站的身份核验。
  4. 图像生成

    • 定义:基于输入(如文本、参考图)生成全新的图像或对现有图像进行编辑。
    • 应用:艺术风格迁移(如把照片变成油画)、老旧照片修复、图像超分辨率(把模糊图变清晰)、AI 绘画(如 Stable Diffusion)。

二、自然语言处理(Natural Language Processing, NLP)

1. 机器翻译

  • 定义:使用深度学习模型将一种语言的文本自动翻译成另一种语言。
  • 典型应用:Google 翻译、实时语音翻译(如跨国会议、旅游翻译)。
  • 技术背景:从早期的统计机器翻译(SMT)发展到现在的 Transformer 架构(如 Google 的 GNMT),翻译质量大幅提升。

2. 情感分析

  • 定义:分析文本中的情感倾向,判断其为正面、负面或中性。
  • 典型应用:社交媒体监控(舆情分析)、电商产品评论分析、用户满意度调查。
  • 技术背景:常用方法包括基于词典的规则匹配、传统机器学习(如 SVM)和深度学习(如 LSTM、BERT)。

3. 文本生成

  • 定义:生成符合语法和语义的自然语言文本。
  • 典型应用:自动写作助手(如 Grammarly、Notion AI)、新闻生成、小说创作、代码生成。
  • 技术背景:核心是大语言模型(LLM),如 GPT 系列,通过学习海量文本数据来生成连贯、有意义的文本。

4. 语音识别

  • 定义:将语音转化为文字(ASR,Automatic Speech Recognition)。
  • 典型应用:智能助手(Siri、Alexa)、自动字幕生成(视频平台)、语音输入法。
  • 技术背景:结合了声学模型和语言模型,深度学习(如 CNN、RNN、Transformer)大幅提升了识别准确率。

5. 聊天机器人(Chatbot)

  • 定义:通过深度学习理解用户输入并生成合理的回应。
  • 典型应用:客服机器人(电商、金融)、虚拟助手(如 GPT 类模型)、陪伴式聊天。
  • 技术背景:从早期的规则匹配到现在的检索式 + 生成式混合模型,再到端到端的大语言模型,交互越来越自然。

三、推荐系统

1. 电影、音乐推荐

  • 定义:根据用户历史评分、播放 / 观看记录、收藏等行为数据,推荐符合其偏好的电影、音乐或剧集。
  • 典型应用:Netflix(影视推荐)、Spotify(音乐推荐)、网易云音乐 “每日推荐”。
  • 技术背景:常用协同过滤(基于用户 / 物品相似度)、矩阵分解、深度学习(如 DeepFM、Neural Collaborative Filtering)等方法。

2. 电商推荐

  • 定义:基于用户的购买历史、浏览轨迹、购物车、搜索关键词等数据,推荐相关商品,提升转化率和客单价。
  • 典型应用:亚马逊 “Customers who bought this also bought”、淘宝 “猜你喜欢”、京东个性化首页。
  • 技术背景:结合用户画像、商品画像和场景特征,使用排序模型(如 LR、XGBoost、Deep & Cross Network)进行精准推荐。

3. 社交媒体推荐

  • 定义:分析用户的社交关系(好友、关注 / 粉丝)、互动行为(点赞、评论、转发)、内容偏好,推荐相关内容(帖子、视频)或潜在好友。
  • 典型应用:Facebook/Instagram 的信息流推荐、抖音 “推荐页”、微博 “热门推荐”。
  • 技术背景:融合图神经网络(GNN)建模社交关系,结合用户兴趣漂移模型,实现实时、动态的内容分发。

四、多模态大模型

机器学习 & 深度学习 一句话区别

深度学习是机器学习的一个分支,只是层次更深、自动提取特征。


核心区别(超清晰对比)

1. 特征提取

  • 机器学习:需要人工提取特征

    比如:你要告诉模型图片哪里是边缘、颜色、纹理。

  • 深度学习自动提取特征

    模型自己学边缘、纹理、形状、高级语义,不用人手工设计。

2. 数据量

  • 机器学习小数据也能用
  • 深度学习需要大量数据,数据少效果差

3. 计算资源

  • 机器学习:普通电脑 CPU 就能跑
  • 深度学习需要 GPU,计算量大

4. 模型结构

  • 机器学习:模型浅(逻辑回归、SVM、决策树)
  • 深度学习:模型很深(多层神经网络:CNN、RNN、Transformer)

5. 适用数据

  • 机器学习:擅长 表格数据、结构化数据
  • 深度学习:擅长 图像、文本、语音、视频 这类非结构化数据

6. 可解释性

  • 机器学习:容易解释
  • 深度学习:黑盒,很难解释

最简单记忆口诀

  • 机器学习 = 人工找特征 + 简单模型
  • 深度学习 = 自动找特征 + 深层神经网络

一句话总结(考试直接背)

机器学习是让机器从数据学习规律的方法总称;深度学习是基于多层神经网络、能自动提取特征的机器学习方法,主要用于图像、文本、语音等复杂任务。

PyTorch

image-20260303215039129

张量

image-20260303221816076

CIFAR10模型

手动实现图片模型

image-20260308133136379

卷积1 + 池化1

image-20260308133800537
$$ {得出结论}
得出结论
(1)stride = 1,padding =2
$$

1
2
self.conv1 = Conv2d(3, 32, 5, stride=1, padding=2)
self.maxpool1 = nn.MaxPool2d(2)

卷积2 + 池化2 + 后续

$$
(2)stride = 1,padding = 10
$$

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

class Tudui(nn.Module):
def __init__(self):
super(Tudui, self).__init__()
self.conv1 = Conv2d(3, 32, 5, stride=1, padding=2)
self.maxpool1 = nn.MaxPool2d(2)
self.conv2 = Conv2d(32, 32, 5, stride=1, padding=2)
self.maxpool2 = nn.MaxPool2d(2)
self.conv3 = Conv2d(32, 64, 5, stride=1, padding=2)
self.maxpool3 = nn.MaxPool2d(2)
self.flatten = Flatten()
self.linear1 = Linear(1024, 64)
self.linear2 = Linear(64, 10)
def forward(self, x):
x = self.conv1(x)
x = self.maxpool1(x)
x = self.conv2(x)
x = self.maxpool2(x)
x = self.conv3(x)
x = self.maxpool3(x)
x = self.flatten(x)
x = self.linear1(x)
x = self.linear2(x)
return x

注意力机制

1.CBAM注意力机制

通道注意力模块:关注每个通道的特征图的重要程度

空间注意力模块:关注特征图中的每个像素的重要程度

image-20260313111540907

image-20260313111718643

2.SE注意力机制

image-20260313112152159

3.CA注意力机制

image-20260313112233758

4.ECA注意力机制

image-20260313112258663

目标检测

YOLO算法

image-20260313125802849

YOLO11 网络结构图

image-20260313131301821

image-20260313131425858

Backbone 特征提取

image-20260313131602488

image-20260313132159549

Neck 进行特征融合和增强 + Detect 预测

image-20260313131818804

损失函数

image-20260313155826019