Hadoop 应用与开发(第2版)云计算、大数据、人工智能系列

主     编 :陈艺卓,杨子江,柳义筠

定     价 :48.00

书     号 :978-7-313-33902-7

印 刷 色 :双色

出 版 社 :上海交通大学出版社

出版/修订日期:2025.12

分 享 到 :

微信扫码进入微店购买

产品介绍样书申请

目录

项目 1 初识 Hadoop / 1
1.1 Hadoop 简介 ……………………………… 2
1.2 Hadoop 基础安装 ………………………… 3
    1.2.1 下载安装文件 …………………………… 3
    1.2.2 单机模式配置 …………………………… 3
    1.2.3 伪分布式模式配置 ……………………… 4
    1.2.4 完全分布式模式配置 …………………… 9
1.3 Hadoop 应用场景 …………………………14
项目 2 Hadoop 集群搭建 / 17
2.1 Linux 环境安装 ……………………………18
    2.1.1 NAT 模式配置 …………………………… 18
    2.1.2 安装及设置 Linux 操作系统 …………… 19
    2.1.3 安装 JDK ………………………………… 22
2.2 Hadoop 本地模式安装 ……………………22
    2.2.1 本地模式介绍 …………………………… 23
    2.2.2 解压 Hadoop 后直接使用………………… 23
    2.2.3 运行 MapReduce 程序并验证 …………… 23
2.3 Hadoop 伪分布式模式安装 ………………24
    2.3.1 伪分布式 Hadoop 部署过程 …………… 24
    2.3.2 开启历史服务 …………………………… 31
2.4 完全分布式模式安装 ………………………33
    2.4.1 完全分布式环境部署 Hadoop ………… 33
    2.4.2 启动集群 ………………………………… 38
    2.4.3 测试 Job ………………………………… 39
项目 3 Hadoop 分布式文件系统 / 43
3.1 HDFS 的应用类型 …………………………44
    3.1.1 HDFS 不适用的应用类型 ……………… 44
    3.1.2 HDFS 适用的应用类型 ………………… 44
3.2 Hadoop 的相关概念 ………………………45
    3.2.1 块 ………………………………………… 45
    3.2.2 块缓存 …………………………………… 46
    3.2.3 HDFS 联盟 ……………………………… 47
    3.2.4 HDFS 高可用性 ………………………… 47
    3.2.5 失败备援和筑围 ………………………… 48
    3.2.6 命令行接口 ……………………………… 49
    3.2.7 基本的文件系统操作 …………………… 49
    3.2.8 HDFS 中文件的权限 …………………… 50
3.3 Hadoop 文件系统 …………………………51
    3.3.1 接口 ……………………………………… 52
    3.3.2 JAVA 接口 ……………………………… 53
    3.3.3 写数据 …………………………………… 57
    3.3.4 目录 ……………………………………… 58
项目 4 ZooKeeper / 65
4.1 初识 ZooKeeper ……………………………66
    4.1.1 ZooKeeper 简介 ………………………… 66
    4.1.2 ZooKeeper 基础 ………………………… 67
    4.1.3 ZooKeeper API …………………………… 68
    4.1.4 znode 的类型 …………………………… 68
    4.1.5 监视机制 ………………………………… 69
    4.1.6 ZooKeeper 监听机制的规则 …………… 70
    4.1.7 版本 ……………………………………… 70
4.2 ZooKeeper 架构 ……………………………71
    4.2.1 ZooKeeper 仲裁 ………………………… 72
    4.2.2 会话 ……………………………………… 73
    4.2.3 主 – 从架构中的系统协同 ……………… 75
4.3 使用 ZooKeeper ……………………………77
    4.3.1 ZooKeeper 发行包 ……………………… 77
    4.3.2 安装 ZooKeeper ………………………… 77
4.4 集群的搭建和使用 …………………………81
4.5 ZooKeeper 应用 ……………………………83
    4.5.1 数据发布与订阅 ………………………… 83
    4.5.2 分布通知 / 协调 ………………………… 83
    4.5.3 分布式锁 ………………………………… 84
    4.5.4 集群管理 ………………………………… 84
项目 5 Hive / 87
5.1 初识 Hive ……………………………………88
    5.1.1 Hive 简介 ………………………………… 88
    5.1.2 Hive 特点 ………………………………… 88
    5.1.3 Hive 架构 ………………………………… 90
    5.1.4 Hive 和数据库的异同 …………………… 92
    5.1.5 Hive 的数据存储 ………………………… 94
5.2 Hive 基本操作 ………………………………95
    5.2.1 创建表 …………………………………… 95
    5.2.2 修改表 …………………………………… 96
    5.2.3 DML Load 操作 ………………………… 97
    5.2.4 将查询结果插入 Hive 表 ………………… 97
    5.2.5 导出表数据 ……………………………… 98
    5.2.6 基本的 Select 操作 ……………………… 98
    5.2.7 表关联 …………………………………… 99
5.3 Hive 函数 ……………………………………99
    5.3.1 创建虚表 ………………………………… 99
    5.3.2 简单函数 ………………………………… 99
    5.3.3 字符函数 ……………………………… 100
    5.3.4 条件函数 ……………………………… 101
    5.3.5 日期函数 ……………………………… 102
    5.3.6 集合函数 ……………………………… 102
5.4 Hive Shell 基本操作 …………………… 103
    5.4.1 Hive 命令行 …………………………… 103
    5.4.2 调用 python、shell 语言 ……………… 103
项目 6 Hadoop I/O 流操作 / 107
6.1 数据完整性 ……………………………… 108
    6.1.1 HDFS 中的数据完整性 ……………… 108
    6.1.2 LocalFileSystem ……………………… 109
    6.1.3 ChecksumFileSystem ………………… 109
6.2 压缩 ……………………………………… 110
    6.2.1 编解码器 ……………………………… 110
    6.2.2 本地库 ………………………………… 113
    6.2.3 编码池 ………………………………… 113
    6.2.4 codec …………………………………… 114
    6.2.5 压缩和输入分片 ……………………… 118
    6.2.6 在 MapReduce 中使用压缩 …………… 118
6.3 序列化 …………………………………… 119
    6.3.1 Writable 接口…………………………… 120
    6.3.2 Writable 实现类………………………… 123
    6.3.3 序列化框架 …………………………… 133
6.4 基于文件的数据结构 …………………… 133
    6.4.1 SequenceFile …………………………… 133
    6.4.2 MapFile ………………………………… 139
    6.4.3 其他文件格式和面向列格式 ………… 139
项目 7 MapReduce 开发 / 143
7.1 MapReduce 输入 ……………………… 144
    7.1.1 InputFormat 类 ………………………… 144
    7.1.2 InputSplit 类 …………………………… 145
    7.1.3 RecordReader 类 ……………………… 145
    7.1.4 Hadoop 的“小文件”问题 …………… 146
    7.1.5 输入过滤 ……………………………… 150
7.2 Map 任务 ………………………………… 153
    7.2.1 dfs.blocksize 属性 …………………… 153
    7.2.2 中间输出结果的排序与溢出 ………… 154
    7.2.3 本地 Reducer 和 Combiner …………… 156
    7.2.4 获取中间输出结果——Map 侧 ……… 156
7.3 Reduce 任务 …………………………… 156
    7.3.1 获取中间输出结果——Reduce 侧 …… 157
    7.3.2 中间输出结果的合并与溢出 ………… 157
7.4 MapReduce 的输出 …………………… 158
    7.4.1 优化输出 ……………………………… 158
    7.4.2 任务的推测执行 ……………………… 158
7.5 MapReduce 作业的计数器 …………… 159
7.6 数据连接的处理 ………………………… 161
    7.6.1 Reduce 侧的连接 ……………………… 161
    7.6.2 Map 侧的连接 ………………………… 166
项目 8 Hadoop 数据建模 / 173
8.1 Hadoop 数据建模基础 ………………… 174
8.2 数据存储选型 …………………………… 174
    8.2.1 标准文件格式 ………………………… 175
    8.2.2 Hadoop 文件类型 ……………………… 176
    8.2.3 序列化存储格式 ……………………… 177
    8.2.4 列式存储格式 ………………………… 178
    8.2.5 压缩 …………………………………… 180
8.3 HDFS 模式设计 ………………………… 182
    8.3.1 文件在 HDFS 中的位置 ……………… 182
    8.3.2 高级 HDFS 模式设计 ………………… 184
8.4 HBase 模式设计 ………………………… 186
    8.4.1 行键 …………………………………… 187
    8.4.2 时间戳 ………………………………… 189
    8.4.3 hop ……………………………………… 189
    8.4.4 表和 Region …………………………… 190
    8.4.5 使用列 ………………………………… 191
    8.4.6 列簇 …………………………………… 192
    8.4.7 TTL …………………………………… 193
8.5 元数据管理 ……………………………… 193
    8.5.1 元数据概念 …………………………… 193
    8.5.2 元数据优势 …………………………… 194
    8.5.3 元数据的存储位置 …………………… 194
    8.5.4 元数据管理举例 ……………………… 195
    8.5.5 Hive metastore 与 HCatalog 的局限性 … 195
    8.5.6 其他存储元数据的方式 ……………… 196
项目 9 Hadoop 应用开发——点击流量 / 201
9.1 用例场景定义 …………………………… 202
9.2 使用 Hadoop 进行点击流量分析 ……… 203
9.3 设计概述 ………………………………… 203
9.4 数据存储 ………………………………… 204
9.5 数据采集 ………………………………… 206
    9.5.1 客户端层 ……………………………… 209
    9.5.2 收集器层 ……………………………… 210
9.6 数据处理 ………………………………… 212
    9.6.1 数据去重 ……………………………… 214
    9.6.2 会话生成 ……………………………… 215
9.7 数据分析 ………………………………… 217
9.8 协调调度 ………………………………… 218
参考文献 ……………………………………………………………………………………… 223

世纪宏图免费样书、课件申请表

尊敬的老师:

您好!欢迎您领取本书样书,高校教师免费领取,包邮,每人1-3本。提交申请样书信息后,由对应区域负责人安排邮寄,1-3天内寄出。如有其他问题,请联系:薛老师 13810412048 (微信同号) QQ: 2301407762 进行咨询和处理。

*1.样书申请人

姓名

电话

学校/院系/职务

邮箱

邮寄地址

2.样书申请

申请样书情况

申请样书书名

申请样书作者

申请样书出版社

*3.本学期使用教材

课程名称

教材书名

作者

出版社

全校使用数量

使用年限

4.评价建议

很不满意 不满意 一般 满意 很满意
知识体系完整性
内容新颖
数字化资源配套
习题解答配套
教师教学便利性

5.申请课件情况

验证码

换一张

提交申请

会员登录

期待您成为我们的会员!

用户名 *

密码 *

验证码*

换一张

忘记密码 用户注册

立即登录

会员注册

请认真填写您的资料*

用户名 *

密码 * (6-20个字符)

姓名*

电话*

邮箱*

学校名称*

所在院系*

职务*

地址*

验证码*

换一张

立即注册

找回密码

请输入您的邮箱找回密码!

邮箱*

验证码

下一步

设置新密码

请认真填写您的新密码!

验证码*

新密码*

确认密码*

提交 上一步

关注官方微信