目 录
第1章 大数据分析概述1
1.1 大数据分析背景1
1.2 大数据分析的应用2
1.3 大数据分析算法3
1.4 大数据分析工具5
1.5 本章小结8
第2章 数据特征算法分析9
2.1 数据分布性分析9
2.1.1 数据分布特征集中趋势的测定9
2.1.2 数据分布特征离散程度的测定14
2.1.3 数据分布特征偏态与峰度的测定17
2.2 数据相关性分析19
2.2.1 数据相关关系19
2.2.2 数据相关分析的主要内容22
2.2.3 相关关系的测定22
2.3 数据聚类分析24
2.3.1 聚类分析定义24
2.3.2 聚类类型25
2.3.3 聚类应用26
2.4 数据主成分分析27
2.4.1 主成分分析的原理及模型27
2.4.2 数据主成分分析的几何解释29
2.4.3 数据主成分的导出30
2.4.4 证明主成分的方差是依次递减的31
2.4.5 数据主成分分析的计算32
2.5 数据动态性分析33
2.6 数据可视化36
2.7 本章小结38
第3章 大数据分析工具:NumPy39
3.1 NumPy简介39
3.2 NumPy环境安装配置40
3.3 ndarray对象41
3.4 数据类型42
3.5 数组属性45
3.6 数组创建例程47
3.7 基本切片和高级索引52
3.8 广播55
3.9 数组与元素操作56
3.9.1 数值迭代56
3.9.2 数组变形60
3.9.3 数组翻转62
3.9.4 修改维度65
3.9.5 数组连接69
3.9.6 数组分割73
3.9.7 添加/删除元素75
3.10 位操作与字符串函数80
3.11 数学运算函数84
3.12 算术运算86
3.13 统计函数89
3.14 排序、搜索和计数函数93
3.15 字节交换96
3.16 副本和视图96
3.17 矩阵库99
3.18 线性代数模块101
3.19 Matplotlib库104
3.20 Matplotlib绘制直方图106
3.21 IO文件操作107
3.22 NumPy实例:GPS定位108
3.23 本章小结111
第4章 大数据分析工具:SciPy112
4.1 SciPy简介112
4.2 文件输入和输出:SciPy.io113
4.3 特殊函数:SciPy.special114
4.4 线性代数操作:SciPy.linalg115
4.5 快速傅里叶变换:Scipy.fftpack115
4.6 优化器:SciPy.optimize116
4.7 统计工具:SciPy.stats117
4.8 SciPy实例118
4.8.1 最小二乘拟合118
4.8.2 函数最小值119
4.9 本章小结121
第5章 大数据分析工具:Matplotlib122
5.1 初级绘制122
5.2 图像、子区、子图、刻度128
5.3 其他种类的绘图130
5.4 本章小结136
第6章 大数据分析工具:Pandas137
6.1 Pandas系列137
6.2 Pandas数据帧140
6.3 Pandas面板144
6.4 Pandas快速入门147
6.5 本章小结158
第7章 大数据分析工具:Statsmodels与Gensim159
7.1 Statsmodels159
7.1.1 Statsmodels统计数据库159
7.1.2 Statsmodels典型的拟合模型概述161
7.1.3 Statsmodels举例162
7.2 Gensim164
7.2.1 基本概念164
7.2.2 训练语料的预处理164
7.2.3 主题向量的变换166
7.2.4 文档相似度的计算167
7.3 本章小结167
第8章 大数据分析算法168
8.1 分类算法168
8.1.1 决策树169
8.1.2 随机森林174
8.1.3 支持向量机177
8.1.4 朴素贝叶斯180
8.1.5 K最近邻182
8.1.6 逻辑回归185
8.2 聚类算法188
8.2.1 K均值188
8.2.2 层次聚类192
8.2.3 DBSCAN194
8.2.4 高斯混合模型195
8.3 回归算法198
8.3.1 线性回归198
8.3.2 岭回归201
8.3.3 Lasso回归203
8.3.4 多项式回归204
8.4 关联规则学习206
8.4.1 Apriori算法206
8.4.2 FP-Growth算法210
8.5 降维算法213
8.5.1 线性判别分析214
8.5.2 t-分布邻域嵌入216
8.5.3 自编码器实现219
8.5.4 局部线性嵌入222
8.5.5 多维缩放224
8.5.6 独立成分分析225
8.5.7 因子分析228
8.5.8 奇异值分解229
8.6 推荐算法231
8.6.1 基于内容的推荐231
8.6.2 协同过滤233
8.6.3 矩阵分解235
8.6.4 基于深度学习的推荐算法237
8.6.5 混合推荐算法240
8.6.6 基于图的推荐算法242
8.6.7 基于上下文感知的推荐245
8.6.8 基于强化学习的推荐算法247
8.6.9 评估推荐算法的指标250
8.6.10 冷启动问题的解决方案252
8.7 时间序列分析253
8.7.1 自回归移动平均数255
8.7.2 指数平滑257
8.7.3 Prophet261
8.8 异常检测263
8.8.1 Z-Score264
8.8.2 LOF266
8.8.3 Isolation Forest268
8.8.4 One-Class SVM270
8.8.5 生成对抗网络272
8.9 自然语言处理276
8.9.1 词袋模型277
8.9.2 TF-IDF278
8.9.3 主题模型LDA280
8.9.4 词嵌入Word2Vec282
8.9.5 N-gram284
8.10 深度学习288
8.10.1 卷积神经网络289
8.10.2 循环神经网络292
8.10.3 长短期记忆网络296
8.11 图算法298
8.11.1 PageRank299
8.11.2 社区发现302
8.11.3 最短路径算法(Dijkstra算法)305
8.12 优化算法307
8.12.1 随机梯度下降308
8.12.2 遗传算法310
8.12.3 粒子群优化313
8.12.4 模拟退火316
8.13 流数据处理318
8.13.1 滑动窗口319
8.13.2 聚合计算322
8.13.3 过滤324
8.13.4 模式匹配331
8.14 本章小结337
第9章 经典案例分析338
9.1 文本分析与情感分析338
9.2 金融大数据分析352
9.3 社交网络分析360
9.4 地理数据分析372
9.5 城市交通数据分析383
9.6 本章小结392
参考文献394