配套资源:微课视频、电子课件、习题答案、授课计划、教案、源文件、课程标准
本书特色:
·课证融合,紧贴行业需求
·课程设计充分体现“教师指导下的以学生为中心”的教学模式
·满足个性化学习需求,形式灵活多样
本书配套资源、样书均可在本页下载申请,也可联系微信13146070618索取
本书结合项目案例,系统介绍数据分析与应用的核心技术,涵盖了从数据获取、预处理、分析、可视化到机器学习建模的完整流程。全书共分为10 个项目,循序渐进地讲解数据分析相关的关键概念、技术和工具。内容包括Python 数据分析概述,Anaconda 开发环境与JupyterLab 的使用,NumPy 的使用,Pandas 基础、数据预处理、数据分组与聚合分析,使用Matplotlib 实现数据可视化,时间序列数据的处理与分析,文本数据的处理与分析,机器学习基础和综合案例等。每个项目均包含学习目标、知识链接、项目实施和习题,确保理论与实践结合,适合教师授课,能够边学边做。 本书适合作为高等职业院校大数据技术、人工智能等专业“数据分析与应用”或“数据分析与可视化”课程的教材,同样适用于1+X(人工智能数据处理)职业技能等级证书课程,也适合数据分析初学者、数据分析工程师及相关培训机构学员学习。
配套资源:微课视频、电子课件、习题答案、授课计划、教案、源文件、课程标准
本书特色:
·课证融合,紧贴行业需求
·课程设计充分体现“教师指导下的以学生为中心”的教学模式
·满足个性化学习需求,形式灵活多样
本书配套资源、样书均可在本页下载申请,也可联系微信13146070618索取
本书结合项目案例,系统介绍数据分析与应用的核心技术,涵盖了从数据获取、预处理、分析、可视化到机器学习建模的完整流程。全书共分为10 个项目,循序渐进地讲解数据分析相关的关键概念、技术和工具。内容包括Python 数据分析概述,Anaconda 开发环境与JupyterLab 的使用,NumPy 的使用,Pandas 基础、数据预处理、数据分组与聚合分析,使用Matplotlib 实现数据可视化,时间序列数据的处理与分析,文本数据的处理与分析,机器学习基础和综合案例等。每个项目均包含学习目标、知识链接、项目实施和习题,确保理论与实践结合,适合教师授课,能够边学边做。 本书适合作为高等职业院校大数据技术、人工智能等专业“数据分析与应用”或“数据分析与可视化”课程的教材,同样适用于1+X(人工智能数据处理)职业技能等级证书课程,也适合数据分析初学者、数据分析工程师及相关培训机构学员学习。
刘瑞新,教授,计算机专业资深学科带头人,知名计算机类图书作者。多部著作获得全国优秀畅销书奖,“十五”和“十一五”国家级规划教材。 在教学中,刘老师不断探索改革,研究教学方法,并把这些改革和创新应用到所编写的教材中。他所编写的教材内容均来自教学实践,是对“编写讲义→教学→修改教学讲义→再次教学”整个过程的精确提炼,因此对促进教师教学、学生学习发挥了重要作用。
前言
二维码资源清单
项目 1 Python 数据分析概述
1.1 数据分析概述
1.1.1 数据的定义与分类
1.1.2 数据分析的定义和内容
1.2 搭建数据分析与可视化开发环境
1.2.1 下载 Anaconda 安装包
1.2.2 安装 Anaconda
1.3 JupyterLab 的使用
1.3.1 启动 JupyterLab
1.3.2 配置 JupyterLab
1.3.3 JupyterLab 的界面
1.3.4 JupyterLab 的基本用法
习题
项目 2 数值计算库 NumPy
2.1 NumPy 模块的安装、导入与数组的概念
2.1.1 NumPy 模块的导入
2.1.2 NumPy 数组的概念
2.2 创建数组
2.2.1 数组的属性
2.2.2 使用 array () 函数创建数组
2.2.3 创建数组的其他方式
2.2.4 使用随机数模块生成随机数数组
2.3 数组的数据类型
2.3.1 NumPy 的常用数据类型
2.3.2 查看数据类型
2.3.3 转换数据类型
2.4 数组元素的操作
2.4.1 整数索引和切片
2.4.2 花式索引
2.4.3 布尔索引
2.4.4 数组元素的添加、删除、修改和查询
2.5 数组的算术运算
2.5.1 形状相同的数组间运算
2.5.2 形状不同的数组间运算
2.5.3 数组与标量间的运算
2.5.4 数组的布尔运算
2.6 数组的重塑与转置
2.6.1 数组的重塑
2.6.2 数组的转置
2.7 数组的读、写文件操作
2.7.1 读、写文本文件
2.7.2 读、写 CSV 文件
2.8 案例:高等数学考试成绩数据分析
2.8.1 案例简介
2.8.2 案例实现
习题
项目 3 数据分析库 Pandas 基础
3.1 Pandas 模块的导入与数据结构
3.1.1 Pandas 模块的导入
3.1.2 Pandas 的数据结构
3.2 Pandas 对象的创建
3.2.1 创建 Series 对象
3.2.2 创建 DataFrame 对象
3.3 Pandas 对象的属性和方法
3.3.1 Series 对象的常用属性和方法
3.3.2 DataFrame 对象的常用属性和方法
3.4 索引和切片
3.4.1 Series 的索引和切片
3.4.2 DataFrame 的索引和切片
3.5 数据编辑
3.5.1 增加数据
3.5.2 修改数据
3.5.3 删除数据
3.6 算术运算与数据对齐
3.7 数据排序
3.8 统计计算与描述
3.9 Pandas 的文件操作
3.9.1 读写 CSV 和 TXT 文件的数据
3.9.2 读写 Excel 文件的数据
3.10 案例:学生考试成绩数据分析
3.10.1 案例简介
3.10.2 案例实现
习题
项目 4 Pandas 数据预处理
4.1 数据清洗
4.1.1 缺失值的处理
4.1.2 重复值的处理
4.1.3 异常值的处理
4.2 数据合并
4.2.1 主键合并
4.2.2 堆叠合并
4.2.3 根据索引合并
4.2.4 合并重叠数据
4.3 轴向旋转
4.4 转换数据类型
4.5 数据转换
4.5.1 面元划分
4.5.2 哑变量处理
4.6 案例:学生综合考试成绩数据分析
4.6.1 案例简介
4.6.2 案例实现
习题
项目 5 Pandas 数据分组与聚合分析
5.1 数据分组与聚合概述
5.2 数据分组
5.2.1 groupby () 方法的基本语法
5.2.2 按单个列分组
5.2.3 按多个列分组
5.2.4 按函数分组
5.3 数据聚合
5.3.1 常用的聚合函数
5.3.2 自定义聚合函数
5.4 多重聚合与聚合结果的格式化
5.4.1 通过 agg () 方法聚合函数
5.4.2 聚合结果的格式化与自定义名称
5.5 分组后的筛选与排序
5.5.1 筛选特定分组
5.5.2 按条件筛选组内数据
5.5.3 对分组结果排序
5.5.4 对分组排序结果重置索引
5.6 分组中的缺失值处理
5.6.1 在分组时处理缺失值
5.6.2 填充缺失值与丢弃缺失数据
5.6.3 处理分组后数据的异常值
5.7 分组与聚合操作应用实例
5.7.1 销售数据按地区分组聚合
5.7.2 学生成绩按科目和班级分组统计
5.7.3 按部门和职位对员工薪资进行聚合
5.8 案例:连锁超市销售数据分析与可视化
5.8.1 案例简介
5.8.2 案例实现
习题
项目 6 使用 Matplotlib 实现数据可视化
6.1 Matplotlib 库基础
6.1.1 图表的基本组成
6.1.2 Matplotlib 库绘图的层次结构
6.1.3 创建简单图表的基本流程
6.1.4 创建子图
6.2 绘制常用图表
6.2.1 绘制折线图
6.2.2 绘制散点图
6.2.3 绘制条形图
6.2.4 绘制直方图
6.2.5 绘制饼形图
6.2.6 绘制面积图
6.2.7 绘制热力图
6.2.8 绘制雷达图
6.2.9 绘制 3D 图形
6.3 案例:餐厅订单数据分析与可视化
6.3.1 案例简介
6.3.2 案例实现
习题
项目 7 时间序列数据的处理与分析
7.1 时间序列概述
7.1.1 时间序列的定义
7.1.2 时间相关的四类核心对象
7.1.3 时间序列数据的使用
7.2 时间戳与计算
7.2.1 创建时间戳对象
7.2.2 创建时间戳索引对象
7.2.3 创建以时间戳索引为索引的数据对象
7.2.4 获取时间序列子集
7.2.5 创建固定频率的时间戳索引对象
7.2.6 时间戳对象常用的属性和方法
7.2.7 时间序列的频率参数
7.2.8 时间序列的移动
7.3 时期与计算
7.3.1 创建一个时期对象
7.3.2 创建时期索引
7.3.3 创建固定频率的时期索引
7.3.4 创建以时期索引为索引的数据对象
7.4 时间差与计算
7.4.1 创建时间差对象
7.4.2 时间差索引
7.4.3 创建以时间差索引为索引的数据对象
7.5 日期偏移量与计算
7.5.1 日期偏移量别名
7.5.2 锚定偏移量
7.5.3 创建自定义 DateOffset 对象
7.5.4 日期偏移量的 rollforward () 和 rollback () 方法
7.5.5 在 Series 或 DatetimeIndex 中使用日期偏移量
7.6 时间序列类型转换
7.6.1 日期时间转为时间戳 to_datetime () 函数
7.6.2 时间戳转为时期 to_period () 方法
7.6.3 时期转为时间戳 to_timestamp () 方法
7.6.4 转换为时间差的 pd.to_timedelta () 函数
7.7 重采样
7.7.1 重采样方法
7.7.2 降采样
7.7.3 升采样
7.8 滑动窗口
7.9 时间序列数据中的分组与聚合操作
7.10 案例:餐厅订单数据分析与可视化(基于时间特征)
7.10.1 案例简介
7.10.2 案例实现
习题
项目 8 文本数据的处理与分析
8.1 文本数据分析工具概述
8.1.1 NLTK 和 jieba 简介
8.1.2 安装 NLTK 和 jieba
8.1.3 NLP 的处理流程
8.2 文本预处理
8.2.1 分词
8.2.2 词性标注
8.2.3 词形归一化
8.2.4 去除停用词
8.3 文本情感分析
8.3.1 文本情感分析的基本概念
8.3.2 使用情感词典进行情感分析
8.4 文本相似度与语义相似度
8.4.1 文本相似度与语义相似度的基本概念
8.4.2 文本相似度的分析
8.5 文本分类
8.5.1 文本分类的基本概念
8.5.2 文本分类的处理
8.6 案例:手机评价数据分析与可视化
8.6.1 案例简介
8.6.2 案例实现
习题
项目 9 机器学习基础
9.1 机器学习概述
9.1.1 机器学习的基本概念
9.1.2 机器学习的基本类型
9.1.3 机器学习的常用算法
9.2 Scikit-learn 概述
9.2.1 Scikit-learn 的安装
9.2.2 Scikit-learn 的使用步骤
9.2.3 准备数据
9.2.4 创建和训练模型
9.2.5 预测和评估模型
9.3 监督学习模型
9.3.1 线性模型
9.3.2 分类模型
9.4 无监督学习模型
9.4.1 聚类分析模型
9.4.2 降维算法模型
9.5 案例:学生出勤率与成绩预测分析及可视化
9.5.1 案例简介
9.5.2 案例实现
习题
项目 10 综合案例:货品销售数据分析与可视化
10.1 项目介绍和需求分析
10.1.1 项目介绍
10.1.2 需求分析
10.2 导入模块与加载数据
10.2.1 创建项目
10.2.2 导入模块
10.2.3 加载数据
10.3 数据预处理
10.3.1 删除重复值、缺失值和修改金额格式
10.3.2 异常值处理和偏态分布
10.3.3 月份列的数据规范化
10.4 数据分析与可视化
10.4.1 货品配送服务分析
10.4.2 销售区域潜力分析
10.4.3 商品质量分析
参考文献
随手扫一扫~了解多多