深度学习及计算机视觉应用-图书-人邮教育社区

内容摘要

本书共 8 章，主要包括深度学习的相关理论知识和深度学习的计算机视觉应用。深度学习的相关理论知识部分包括人工智能基础、机器学习、深度学习基础及深度学习三部曲。其中，深度学习三部曲重点介绍深度学习的组成模块，旨在帮助读者把握深度学习的概况。深度学习的计算机视觉应用部分主要以计算机视觉相关任务为引导，介绍深度学习中常用的模型及应用，包括图像分类、目标检测、跨媒体信息处理和图像生成等，涉及擅长图像信息处理的卷积神经网络（CNN）、擅长时序信息处理的循环神经网络（RNN）、擅长机器翻译的 Transformer 模型和擅长信息生成的生成对抗网络（GAN）等。
本书可作为人工智能、计算机、大数据等专业深度学习相关课程的教材，也可供相关科技人员学习参考。

【上篇深度学习知识基础】

第1章人工智能基础 .............. 1
1.1 引言 ............................................. 1
1.2 人工智能概念 ............................. 3
1.2.1 定义 ................................ 3
1.2.2 研究学派 ........................ 5
1.2.3 学科领域 ........................ 6
1.3 人工智能历史 ........................... 10
1.4 人工智能应用 ........................... 21
1.5 人工智能爆发因素 ................... 24
1.5.1 ABC 范式 ..................... 24
1.5.2 ABC 范式带来的改变 .... 27
1.6 人工智能发展趋势 ................... 30
1.6.1 从大数据驱动到 X 数据驱动 ............................... 30
1.6.2 从参数学习到结构学习 ............................... 31
1.6.3 从特定任务处理到多任务协同 ....................... 32
1.6.4 从单一联结主义到多流派集成 ....................... 32
本章小结 ............................................. 32
本章习题 ............................................. 33

第2章机器学习 ....................... 34
2.1 引言 ........................................... 34
2.2 机器学习概念 .......................... 35
2.2.1 定义 .............................. 36
2.2.2 发展历程 ...................... 36
2.2.3 基本范式 ...................... 37
2.2.4 导图 .............................. 39
2.3 机器学习场景 .......................... 39
2.3.1 监督学习 ...................... 39
2.3.2 迁移学习 ...................... 41
2.3.3 强化学习 ...................... 44
2.4 机器学习任务 .......................... 47
2.4.1 回归 .............................. 48
2.4.2 分类 .............................. 48
2.4.3 结构化学习 .................. 48
2.5 机器学习方法 .......................... 49
2.5.1 线性模型 ...................... 49
2.5.2 逻辑回归 ...................... 51
2.5.3 深度学习 ...................... 52
2.5.4 SVM ............................. 53
2.5.5 朴素贝叶斯分类 .......... 54
2.5.6 决策树 .......................... 56
2.5.7 集成学习 ...................... 59
2.6 应用与挑战 .............................. 60
2.6.1 应用 .............................. 60
2.6.2 挑战 .............................. 61
本章小结 ............................................. 62
本章习题 ............................................. 63

第3章深度学习基础 ............ 64
3.1 引言 ........................................... 64
3.2 深度学习概念 ........................... 65
3.3 深度学习历史 ........................... 69
3.4 深度学习分类 ........................... 74
3.4.1 基于卷积神经网络的模型 .............................. 74
3.4.2 基于受限玻耳兹曼机的模型 .............................. 76
3.4.3 基于自编码器的模型 .... 78
3.5 深度学习步骤 ........................... 81
3.5.1 定义函数集合——神经网络 .............................. 81
3.5.2 衡量函数好坏——损失函数 .............................. 83
3.5.3 找到最优函数——优化方法 .............................. 84
3.6 深度学习的计算机视觉应用 ..... 85
本章小结 ............................................. 86
本章习题 ............................................. 87

第4章深度学习三部曲 ...... 88
4.1 引言 ........................................... 88
4.2 网络层 ....................................... 89
4.2.1 基础层 ........................... 89
4.2.2 激活函数层 ................... 96
4.2.3 正则化层 ..................... 100
4.3 损失函数 ................................. 105
4.3.1 合页损失 ..................... 106
4.3.2 多分类 SVM 损失 ...... 106
4.3.3 交叉熵损失 ................. 108
4.3.4 均方误差损失 ............. 110
4.3.5 对比损失 ..................... 113
4.3.6 三元组损失 ................. 114
4.3.7 中心损失 ..................... 115
4.3.8 大间距Softmax 损失 .... 116
4.3.9 焦点损失 ..................... 117
4.3.10 权值衰减 ................... 118
4.4 优化方法 ................................. 119
4.4.1 梯度下降法 ................. 119
4.4.2 反向传播算法 ............. 121
4.4.3 随机梯度下降法 ......... 124
4.4.4 动量法 ......................... 125
4.4.5 自适应学习率 ............. 127
4.4.6 梯度消失和梯度爆炸 ... 130
本章小结 ........................................... 132
本章习题 ........................................... 133

【下篇深度学习的计算机视觉应用】

第5章图像分类 ..................... 134
5.1 引言 ......................................... 134
5.2 任务介绍 ................................. 135
5.3 经典 CNN ............................. 137
5.3.1 LeNet .......................... 137
5.3.2 AlexNet ....................... 140
5.3.3 ZFNet .......................... 144
5.3.4 VGGNet ...................... 145
5.3.5 GoogLeNet .................. 148
5.3.6 ResNet ......................... 152
5.4 Inception 拓展网络 ............ 157
5.4.1 Inception v2 & Inception v3 ................................ 157
5.4.2 Inception v4 & Inception ResNet ......................... 158
5.5 ResNet 拓展网络 ................ 163
5.5.1 Identity Mapping ......... 163
5.5.2 Wide Residual Network ....................... 164
5.5.3 ResNeXt ...................... 165
5.5.4 Deep Network with Stochastic Depth .......... 166
5.6 其他有效类型网络 ................. 167
5.6.1 DenseNet ..................... 168
5.6.2 SENet .......................... 170
5.6.3 Highway Network ....... 171
5.6.4 FractalNet .................... 173
5.6.5 Involution ................... 174
5.7 轻量化模型 ............................ 176
5.7.1 SqueezeNet ................. 176
5.7.2 MobileNet 系列 .......... 178
5.7.3 ShuffleNet ................... 182
本章小结 ........................................... 184
本章习题 ........................................... 185

第6章目标检测 ..................... 186
6.1 引言 ......................................... 186
6.2 任务介绍 ................................ 188
6.3 两阶段目标检测 .................... 191
6.3.1 R-CNN ........................ 191
6.3.2 SPP-Net ...................... 194
6.3.3 Fast R-CNN ................ 196
6.3.4 Faster R-CNN ............. 199
6.3.5 Feature Pyramid Network ...................... 202
6.3.6 Mask R-CNN .............. 206
6.3.7 总结 ............................ 208
6.4 单阶段目标检测 .................... 208
6.4.1 YOLO 系列模型 ........ 209
6.4.2 SSD 系列模型 ............ 219
6.4.3 RetinaNet 模型 ........... 223
本章小结 ........................................... 225

第7章跨媒体信息处理 .... 226
7.1 引言 ......................................... 226
7.2 任务介绍 ................................ 227
7.2.1 图文检索 .................... 227
7.2.2 图像描述 .................... 228
7.2.3 视觉问答 .................... 229
7.3 RNN 模型 ............................. 229
7.3.1 提出背景 .................... 230
7.3.2 基本理念 .................... 230
7.3.3 基本结构 .................... 232
7.3.4 梯度消失和梯度爆炸 ............................ 234
7.3.5 LSTM 网络 ................. 235
7.3.6 门循环神经网络 ........ 237
7.4 Transformer 模型 ............. 238
7.4.1 自注意力机制 ............ 238
7.4.2 Transformer 模型结构 ............................ 240
本章小结 ........................................... 243
本章习题 ........................................... 243

第8章图像生成 ..................... 244
8.1 引言 ......................................... 244
8.2 GAN 的基本思想 ................. 246
8.2.1 GAN 的感性认识 ....... 246
8.2.2 GAN 的理性认识 ....... 247
8.3 任务介绍 ................................ 252
8.4 GAN 的发展 ......................... 255
8.4.1 WGAN ........................ 255
8.4.2 DCGAN ...................... 257
8.4.3 CGAN ......................... 258
8.4.4 StackGAN ................... 260
8.4.5 LapGAN ..................... 262
8.4.6 CycleGAN .................. 264
8.4.7 Coupled GAN ............. 266
8.4.8 InfoGAN ..................... 268
本章小结 ........................................... 270
本章习题 ........................................... 270

读者评论

赶紧抢沙发哦！

我要评论

出版信息

书　　名：深度学习及计算机视觉应用
执行编辑：本书的内容有任何问题，请联系孙澍
出版日期：2026-01-01
书　　号：978-7-115-67645-0
作　　者： 郭延明
定　　价：59.80 元
页　　数：350
印刷方式：黑白印刷
开　　本：16开
出版状态：正在印刷

作者介绍

郭延明
国防科技大学系统工程学院副教授。长期从事人工智能、深度学习、多媒体信息处理等方面的研究，在目标检测识别、视觉描述、视觉自动问答、跨媒体关联和多模态融合等多个方面取得创新性研究成果，担任TPAMI、TIP、TMM、TNNLS、IEEE Transactions on Cybernetics等多个国际顶级期刊审稿专家。目前，作为项目负责人主持科研项目4项，包括国家自然科学基金青年基金、湖南省自然科学基金青年基金等，作为骨干成员参与项目10余项。建设并主讲了研究生课程《深度学习方法与应用》，分别于2019年、2020年、2021年春季学期开设，选课人数达到上限，获得了学员和专家督导组的一致好评。同时还担任本科生课程《媒体数据分析与处理》、《武器装备系统概论》和研究生课程《媒体计算方法》的主讲老师之一。除此之外，还作为核心骨干成员参与湖南省精品在线立项课程《多媒体技术与应用》的建设；参与《多媒体设计与制作入门》MOOC课程的教学和维护工作，并获校精品在线课程认定；参与全国教育科学国防军事教育学科“十三五”规划项目1项。