重复值
用duplicated显示是否有重复行
用drop_duplicates去除重复值
df.duplicated()df.drop_duplicates()
df.duplicated()
df.drop_duplicates()
缺失值
识别缺失值的方法isnull以及识别非缺失值的方法notnull
删除缺失值的方法dropna
替换缺失值的方法fillna
df.isnull()df.notnull()df.dropna()df.fillna() df.fillna(df.mean()) df.fillna(method='pad') df.fillna(method='bfill') df.fillna({'甜品':200, '饮品':12}) #为不同的列填充不同的值来填补数据
df.isnull()
df.notnull()
df.dropna()
df.fillna()
df.fillna(df.mean())
df.fillna(method='pad')
df.fillna(method='bfill')
df.fillna({'甜品':200, '饮品':12}) #为不同的列填充不同的值来填补数据
异常值
因为有些异常值含有有用的信息,所以我们处理异常值时要看情况。
可以不处理;
处理的话,可以删除,用前后两个数值的均值进行修正,也可以看作缺失值处理。
对未来真正的慷慨
是把 一切
献给 现在