商务数据采集与处理(微课版 第2版)

校企合作“双元”开发;八爪鱼采集器、Python等工具在数据采集场景中的应用
分享 推荐 1 收藏 2 阅读 65
王延召 , 聂瑞芳 , 刘凯 (主编) 978-7-115-69617-5

关于本书的内容有任何问题,请联系 王振-人邮

1.校企合作开发,真实案例驱动
2.系统讲解八爪鱼采集器、Python等工具在数据采集场景中的应用
3.配套PPT课件、微课操作视频等教学资源,打造新形态立体化教学模式
立即购买
教学资源仅供教师教学使用,转载或另作他用版权方有权追究法律责任。

内容摘要

本书融合一线大数据企业在商务数据采集与应用方面的前沿实践,围绕数据基础、数据来源、数据采集及数据处理等核心环节展开内容讲解,旨在解决商务数据采集与处理相关课程教学中的关键痛点。
本书融入了大量实操案例,并对学习目标进行详细阐述,深度强化“理论围绕实操,实操深化理论,切实掌握技能”的教学理念,旨在为读者提供有效帮助。
本书可以作为职业院校和本科院校商务数据采集与处理等相关课程的教学用书,也可供相关从业人员和对商务数据采集与处理感兴趣的人员学习和参考。

目录

第1章 商务数据采集概述 ...... 1
1.1 初识数据 ................................... 1
1.1.1 数据的构成 ............................. 1
1.1.2 数据的获取途径...................... 3
1.2 认识商务数据 ............................ 6
1.2.1 商务数据的基本概念 .............. 7
1.2.2 商务数据的应用领域 .............. 8
1.2.3 商务数据的作用...................... 9
1.3 商务数据采集工具介绍 ............. 10
1.3.1 常见爬虫软件 ....................... 11
1.3.2 爬虫软件应用案例 ................ 13
1.4 商务数据来源与采集 ................ 17
1.4.1 商务数据的主要来源 ............ 17
1.4.2 商务数据的采集基础 ............ 22
1.4.3 商务数据的采集流程 ............ 23
1.4.4 商务数据的采集方法 ............ 25
1.4.5 商务数据的导出方法 ............ 27

第2章 数据采集器 ............... 30
2.1 初识数据采集器 ....................... 30
2.1.1 数据采集器的优势 ................ 30
2.1.2 数据采集器的架构 ................ 31
2.1.3 数据采集技术的原理 ............ 32
2.1.4 云采集技术的原理 ................ 32
2.2 数据采集器的安装与界面.......... 33
2.2.1 数据采集器的注册与安装 .... 33
2.2.2 数据采集器界面介绍 ............ 36

第3章 数据采集器应用 ....... 42
3.1 模板采集及实例 ....................... 42
3.1.1 如何找到所需的采集模板 .... 42
3.1.2 如何使用采集模板 ................ 43
3.2 自动识别采集及实例 ................ 45
3.3 采集原理与流程执行逻辑.......... 51
3.3.1 八爪鱼采集器采集原理 ........ 51
3.3.2 采集流程执行逻辑 ................ 51
3.4 列表数据采集 ........................... 52
3.5 从列表进入详情页采集 ............. 58
3.6 表格数据采集 ........................... 62
3.7 翻页采集 .................................. 66

第4章 数据采集器高级应用 ........................... 68
4.1 屏蔽网页广告 ........................... 68
4.2 切换浏览器版本 ....................... 69
4.3 禁止加载图片 .......................... 70
4.4 增量采集 ................................. 70
4.4.1 自动去重法 ........................... 70
4.4.2 对比URL 法 ......................... 71
4.4.3 触发器法 ............................... 71
4.5 登录采集 ................................. 72
4.5.1 账号密码登录 ....................... 72
4.5.2 Cookie 登录 .......................... 74
4.6 网页源码提取 .......................... 75
4.7 图片、附件的采集与下载 ......... 76
4.8 循环切换下拉框 ....................... 77
4.9 移动鼠标指针到元素上 ............. 77

第5章 数据采集器定位方式及云采集 ................... 79
5.1 XPath 系统学习 ....................... 79
5.2 XPath 实例1:修改循环列表XPath ........................ 84
5.3 XPath 实例2:循环列表—添加更多的项 ................ 86
5.4 XPath 实例3:循环列表—过滤多余的项 ................. 88
5.5 XPath 实例4:解决翻页死循环的问题 ...................... 90
5.6 认识云计算 .............................. 91
5.7 云采集启动方式 ....................... 91
5.8 云采集原理和规则加速设置 ...... 93
5.9 云采集实况与历史运行记录 ...... 94
5.10 定时云采集设置 ..................... 97
5.11 任务排错 ................................ 98
5.12 云采集排错 ............................ 99

第6章 Python数据采集技术 ......................... 101
6.1 Python 数据采集开发环境搭建 .................... 101
6.1.1 Python 的下载及安装 .......... 101
6.1.2 PyCharm 的下载及安装 ...... 106
6.1.3 必备爬虫库安装 ................. 109
6.2 网页数据采集基础 .................. 112
6.2.1 HTTP 协议与网页交互原理 ............ 112
6.2.2 使用Requests 库获取数据 ..... 118
6.2.3 网页内容解析技术 .............. 121
6.3 数据存储 ................................ 123
6.3.1 将数据存储为JSON 文件 ... 123
6.3.2 将数据存储到MySQL数据库 ........ 124
6.4 实战案例:爬取城市天气........ 125
6.4.1 任务背景与目标 ................. 125
6.4.2 模块导入与说明 ................. 125
6.4.3 网页解析函数设计 .............. 126
6.4.4 网页内容获取与解析 .......... 126
6.4.5 定位网页主要内容 .............. 126
6.4.6 提取表格中的数据信息 ...... 127
6.4.7 城市数据提取 ..................... 127
6.4.8 数据清洗与输出.................. 127
6.4.9 主程序逻辑及逻辑入口 ...... 128

第7章 数据采集器采集实例 ......................... 130
7.1 数据采集器应用领域 .............. 130
7.2 金融网站的数据采集 .............. 131
7.3 新闻网站的数据采集 .............. 135
7.4 房产网站的数据采集 .............. 137
7.5 店铺位置的数据采集 .............. 140
7.6 图书网站的数据采集 .............. 142
7.7 景点网站的数据采集 .............. 146
7.8 社交网站热门榜单的数据采集 ..... 151

第8章 数据处理 ................. 155
8.1 数据清洗 ................................ 155
8.1.1 残缺数据 ............................. 155
8.1.2 错误数据 ............................. 158
8.1.3 重复数据 ............................. 159
8.1.4 格式不一致数据 ................. 160
8.2 数据加工 ................................ 165
8.2.1 数据转换 ............................. 165
8.2.2 数据分组 ............................. 167
8.2.3 数据运算 ............................. 168
8.2.4 数据排序 ............................. 168
8.2.5 数据关联与合并 ................. 169
8.2.6 数据内容调整 ..................... 171

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

王延召,教授,现任河南轻工职业学院党委副书记、工会主席,河南省职业教育领域资深教学与管理专家。长期深耕职业教育教学与人才培养工作,聚焦职业教育教学改革,主讲多门核心课程,牵头推进省级高等教育教学改革研究项目,作为核心成员参与国家级教学成果奖培育项目,荣获国家级教学成果二等奖。主持省厅级重点科研项目多项,在《Signal, Image and Video Processing》《中国职业技术教育》《河南教育》等国内外权威期刊与核心期刊发表学术论文30余篇,多篇被SCI、EI收录。专注于职教育人模式创新与非遗技艺传承研究,提出并实践“课堂—田野—市场”三位一体育人体系。作为省级教学成果评审专家、学院教学质量监控与诊改工作核心专家,长期参与专业评估、课程建设、教学督导与人才培养方案审定,推动学院教学质量持续提升。注重以赛促教、以赛促学,指导师生在全国职业院校技能大赛、教学能力比赛中斩获多项大奖,培育一批省级教学名师、技术能手与青年骨干教师。

推荐用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部