工信精品大数据技术系列教材

人工智能数据服务(微课版)

人工智能数据工程必学方向,人工智能时代下的数据标注,文字、图像、视频、语音标注一本通
分享 推荐 0 收藏 12 阅读 982
王珊珊 , 梁同乐 , 黄永健 (主编) 张谦 , 刘锋 , 王士先 (副主编) 978-7-115-69137-8

关于本书的内容有任何问题,请联系 曹严匀

● 聚焦数据标注,夯实人工智能数据基础。本书以数据标注为主线,系统讲解人工智能训练数据生产与处理过程,覆盖文本、图像、语音和视频等主流数据类型的标注方法与规范,帮助读者掌握人工智能数据服务核心技能。
● 内容系统全面,紧贴行业岗位需求。本书围绕数据采集、数据标注、数据质检和数据管理等关键环节展开,内容设计与人工智能数据服务岗位能力要求紧密衔接,具有较强的职业导向性和实用性。
● 案例贯穿教学,注重学用结合。本书融入丰富的行业案例和操作示例,通过案例解析帮助读者理解数据标注流程、质量控制标准及实际应用场景,提升实践操作能力。
● 配套资源丰富,提升学习效果。本书提供微课视频、案例资源、实训素材及配套教学资源,方便教师开展教学活动,也便于读者自主学习与实践训练。

内容摘要

本书涵盖从数据采集、数据预处理、数据标注到数据标注质量管理的完整流程,旨在为读者构建一套全面、实用且具有前瞻性的人工智能数据服务知识体系。在内容编排上,本书以理论、方法、实践相结合的方式逐步展开。第1章介绍人工智能数据服务的定义、技术特征、行业背景与应用案例等,帮助读者建立对人工智能数据服务整体认知。第2章至第3章深入讲解数据采集与预处理的关键技术,包括数据采集的基本概念与方法、数据格式与标准化管理、合规性管理、数据清洗技术、数据转换、数据集构建等,为读者后续学习数据标注打好基础。第4章至第9章依次介绍文本、图像、语音、视频、三维点云等典型数据的标注方法与工具应用,带领读者进行实操练习。第10章聚焦数据标注质量管理,全面阐述质检方法、质检流程等内容,提升读者对输出高质量数据的理解。
本书适合高等院校人工智能技术与应用、计算机科学与技术、大数据技术等相关专业的学生阅读,也适合作为从事数据处理、模型训练、智能系统开发等工作的工程技术人员和教育培训者的指导读物。

前言

在人工智能技术迅猛发展的今天,数据已经成为驱动算法进化和模型迭代的关键要素。无论是计算机视觉、自然语言处理,还是自动驾驶、智慧医疗等领域,都依赖大量高质量的数据作为训练基础。随着大模型、跨模态系统的不断涌现,数据不仅是“燃料”,更是“基础设施”——它既决定了模型的学习能力,也影响着系统的泛化性能与可信度。
人工智能数据服务正是在这一背景下发展起来的一个新兴交叉技术领域。本书以“数据服务”作为主线,系统梳理并介绍人工智能项目中数据服务环节的基本理论、技术方法与实际操作。本书聚焦“数据标注”,重点讲解了数据采集技术,数据预处理,标注方法、工具选择、质量评估、合规保障等内容。
本书共分为10章,主要内容如下。
 第1章从回答什么是人工智能数据服务出发,全面介绍其行业背景、服务流程与典型应用案例等,帮助读者建立整体认知。
 第2章聚焦数据采集技术,系统介绍数据采集的基本概念、方法(如网络数据爬取、物联网设备采集、第三方API接入)、数据格式与标准化、合规性管理等内容。
 第3章介绍数据预处理,包括数据清洗、数据转换、数据集构建等,为模型训练打下规范化数据基础。
 第4章至第9章简单介绍数据标注后,深入介绍文本、图像、语音、视频、三维点云等常见数据类型的标注方法,涵盖从理论到工具使用、案例操作的全过程。
 第10章以数据标注质量管理为核心,重点介绍数据标注质检方法、质检流程、质检管理等,帮助读者理解“数据质量即模型质量”的行业共识。
在内容结构安排上,每章先讲解相关理论知识,再结合真实案例进行讲解或实操展示,最后以小结、习题和课后拓展延伸学习路径,确保理论与实践的有机融合。
随着人工智能应用规模的扩大,数据采集与处理过程中对隐私保护、数据合规、伦理规范等的要求也日益严格。本书在部分知识讲解中嵌入相关法律法规的解读和制度的流程指导,帮助读者提升数据治理与责任意识。
随着人工智能进入“数据驱动,服务赋能”的新阶段,数据服务也从幕后走向前台,成为各行业智能化转型的中坚力量。希望本书能够帮助读者建立完整的数据服务知识体系,掌握面向未来的实用技能,在人工智能浪潮中稳固根基、拓宽视野、厚积薄发。

宣传大图

目录

第1章 人工智能数据服务概述 1
1.1 什么是人工智能数据服务 1
1.1.1 人工智能数据服务的定义 1
1.1.2 数据服务类型 1
1.1.3 人工智能数据服务的技术特征 2
1.2 人工智能数据服务行业背景 3
1.2.1 全球人工智能发展的推动力 3
1.2.2 中国人工智能数据服务行业的崛起 3
1.2.3 行业生态的多元化构成 4
1.2.4 行业发展面临的主要问题 5
1.2.5 行业的转型趋势 6
1.2.6 国家政策支持与监管框架建设 7
1.2.7 行业发展前景与人才需求趋势 8
1.3 人工智能数据服务流程 8
1.4 人工智能数据服务在产业中的典型应用案例 9
1.4.1 医疗健康领域:腾讯的医学影像数据平台 9
1.4.2 智能交通领域:滴滴的交通大数据平台 9
1.4.3 金融科技领域:蚂蚁集团的智能风控系统 9
1.4.4 工业制造领域:华为云工业智能体 10
1.5 小结 10
1.6 习题 10
1.7 课后拓展 11

第2章 数据采集技术 13
2.1 数据采集的基本概念 13
2.1.1 数据采集的定义及核心目标 13
2.1.2 数据采集的分类体系 14
2.2 数据采集方法 16
2.2.1 网络数据爬取 16
2.2.2 物联网设备采集 25
2.2.3 第三方API接入 26
2.3 数据格式与标准化管理 27
2.3.1 常见数据格式 27
2.3.2 元数据管理 28
2.4 合规性管理 29
2.4.1 隐私保护技术 29
2.4.2 数据授权与审计 30
2.5 小结 31
2.6 习题 31
2.7 课后拓展 32

第3章 数据预处理 34
3.1 数据预处理基础 34
3.1.1 数据预处理的目标与原则 34
3.1.2 数据质量评估指标 35
3.2 数据清洗技术 37
3.2.1 去除重复值与噪声 37
3.2.2 缺失值处理 38
3.2.3 异常值检测 38
3.3 数据转换 39
3.3.1 标准化与归一化 39
3.3.2 离散化与编码 39
3.4 数据集构建 40
3.4.1 数据划分方法 40
3.4.2 样本平衡技术 41
3.5 小结 42
3.6 习题 42
3.7 课后拓展 43

第4章 数据标注简介 45
4.1 数据标注的概念 45
4.1.1 数据标注的应用 45
4.1.2 数据标注分类 46
4.2 数据标注的类型 48
4.2.1 文本数据标注 48
4.2.2 图像数据标注 48
4.2.3 语音数据标注 49
4.2.4 视频数据标注 49
4.2.5 三维点云标注 50
4.2.6 AI大模型标注 51
4.3 数据标注涉及技术 51
4.3.1 算法 51
4.3.2 数据格式 56
4.3.3 数据标注工具 60
4.4 数据标注步骤 62
4.4.1 数据收集 62
4.4.2 任务理解 63
4.4.3 标注准备 63
4.4.4 数据标记 63
4.4.5 质量控制 63
4.4.6 数据质检 64
4.4.7 数据集整合 64
4.4.8 反馈与迭代 64
4.5 小结 65
4.6 习题 65
4.7 课后拓展 66

第5章 文本数据标注 67
5.1 文本数据标注概念 67
5.1.1 什么是文本数据标注 67
5.1.2 文本数据标注因素和规范 68
5.1.3 文本数据标注应用领域 70
5.2 文本数据标注分类 71
5.2.1 实体标注 71
5.2.2 实体关系标注 73
5.2.3 文本属性标注 73
5.2.4 文档分类标注 74
5.2.5 阅读理解标注 74
5.2.6 多实体标注 75
5.2.7 情感色彩标注 75
5.3 文本数据标注的工具 76
5.3.1 doccano的安装 76
5.3.2 创建doccano文本数据标注项目 79
5.4 文本数据标注实战 81
5.4.1 单实体标注案例 81
5.4.2 多实体标注案例 86
5.4.3 实体关系标注案例 89
5.4.4 情感色彩标注案例 95
5.5 小结 98
5.6 习题 99
5.7 课后拓展 100

第6章 图像数据标注 101
6.1 图像数据标注的概念 101
6.1.1 什么是图像数据标注 101
6.1.2 图像数据标注规范 102
6.1.3 图像数据标注发展现状 104
6.1.4 图像数据标注的重要性 106
6.2 图像数据标注分类 107
6.2.1 图像框选 107
6.2.2 OCR技术 108
6.3 图像数据标注工具 109
6.4 图像数据标注的技术难题与解决方案 110
6.4.1 技术难题 110
6.4.2 解决方案 111
6.5 图像数据标注实战 112
6.5.1 图像框选案例 112
6.5.2 图像OCR案例 117
6.6 小结 121
6.7 习题 121
6.8 课后拓展 122

第7章 语音数据标注 123
7.1 语音数据标注概念 123
7.1.1 什么是语音数据标注 123
7.1.2 语音数据标注发展现状 124
7.2 语音数据标注分类 125
7.2.1 基础处理 125
7.2.2 内容转义 126
7.2.3 特征分析 126
7.3 语音数据标注工具 127
7.4 语音数据标注方法 129
7.4.1 音频分类 130
7.4.2 自然语料标注 130
7.4.3 时间段分类 131
7.5 语音数据标注实战 132
7.6 小结 137
7.7 习题 137
7.8 课后拓展 138

第8章 视频数据标注 140
8.1 视频数据标注概念 140
8.1.1 什么是视频数据标注 140
8.1.2 视频数据标注与图像数据标注的差异 141
8.1.3 视频数据标注发展现状 142
8.2 视频数据标注分类 143
8.2.1 空间标注 143
8.2.2 时间标注 144
8.2.3 语义标注 145
8.3 视频数据标注工具 145
8.4 视频数据标注方法 146
8.4.1 单一图像法 146
8.4.2 连续帧法 147
8.4.3 基于规则的标注 148
8.4.4 基于机器学习的标注 148
8.5 视频数据标注实战 149
8.6 小结 153
8.7 习题 154
8.8 课后拓展 154

第9章 三维点云标注 156
9.1 三维点云标注的概念 156
9.1.1 什么是三维点云标注 156
9.1.2 三维点云标注的特性与规范 157
9.1.3 三维点云的应用 161
9.1.4 三维点云标注的发展现状 162
9.2 三维点云数据的分类 163
9.2.1 基于采集方式的分类 163
9.2.2 基于数据密度的分类 164
9.2.3 基于数据处理方式的分类 164
9.3 三维点云标注工具 164
9.3.1 SSE的安装 164
9.3.2 SSE的介绍 171
9.4 三维点云标注实战 172
9.5 小结 175
9.6 习题 175
9.7 课后拓展 176

第10章 数据标注质量管理 178
10.1 数据质量对机器学习模型的影响 178
10.2 数据标注质量控制与风险管理 179
10.3 数据标注质检方法 180
10.4 数据标注质检流程 187
10.5 数据标注质检管理 189
10.6 小结 191
10.7 习题 191

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

王珊珊,高级工程师、副教授。研究方向涵盖人工智能算法、大数据分析与智能系统。主持省级科研项目及多项横向课题,在智慧医疗、材料分析与教育信息化等方向取得应用成果。拥有国家实用新型专利与多项软件著作权,主持开发国际化课程并在海外高校开展教学。

同系列书

  • Python大数据可视化方法与实践(微课版)

    梁同乐 王珊珊 张谦 梁煜武 王士先

    本书深入浅出地介绍了大数据可视化这一结合艺术与科学的领域,旨在帮助读者将复杂的大数据转化为直观且具有价值的信息...

    ¥49.80
  • 人工智能数据服务(微课版)

    王珊珊 梁同乐 黄永健 张谦 刘锋 王士先

    本书涵盖从数据采集、数据预处理、数据标注到数据标注质量管理的完整流程,旨在为读者构建一套全面、实用且具有前瞻性...

    ¥49.80
  • 数据采集与预处理(第2版)

    米洪 张鸰 郑莹 杨琼

    本书以项目为引领,任务为驱动,围绕企业级数据采集与预处理应用进行项目任务设计。全书共5个项目,包括数据采集与预...

    ¥59.80
  • 大数据存储技术

    黄家麒 金恩曼 周倩 卢建云 华东 陈锋

    本书较为深入地探讨了大数据存储技术在零售业中的应用。本书采用“项目—任务—工单”的组织方式,共分为5个任务模块...

    ¥49.80
  • Python基础与大数据应用(第2版)(微课版)

    丁辉 陈永 商俊燕 伍转华 张良均

    本书内容安排遵循学生的认知规律,结合Python的特点,将教学内容分为Python基础与数据分析两大部分。全书...

    ¥69.80

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部