数据是进行数据处理与挖掘的基础。我们拿到一组数据后这组数据作为一个研究对象,是一个什么样的情况,我们需要先了解到。
Python处理表格型类的结构性数据使用的Pandas库的DataFrame对象(缩写为df).df.head() 查看所有数据的前几行,了解数据长什么样。df.info() 告诉我们数据的字段名称(表头),非空值的数量,每列的数据类型df.shape 返回一个(行数,列数),直接获取数据表的维度
数据质量,即数据是不是合理且完整的。常见的质量问题,是数据是缺失的(某一些位置是空的)和异常值(这个数值的大小和列的内容不搭)。df.isnull().sum(), 计算每列(字段)的空值总数df.describe(), 生成数值列的统计信息概要,可以发现数据的最大/最小值等df.duplicated().sum(),可查看重复值的行数。
直方图,看数据集中在那个区间箱线图,数据的平均值,主要分布情况,是否有异常值。散点图,判断任意两个特征之间的是否有关系相关性热力矩阵,用-1(负相关),1(正相关)和0(无关系),表示特征相关程度
异常值,需要特别关注,以业务视角/字段表示的内容来判断是否为异常值。
数据理解→数据处理+数据挖掘(机器学习)→数据可视化中间会穿插着创建特征工程,常见的是创建新的字段,用于可视化分析。机器学习的模型,主要的四类问题:分类、回归、聚类、降维。
工作or没工作,都不影响今天是美好的一天,生命里唯一的一天。