时间关系,最近很忙,直接把代码分享一下,有兴趣的小伙伴可以直接尝试一下,后面会重点分享一些模型和理论方面的知识,python后面的更新也是侧重到运用啦。
核心知识点:修改表格表头、修改数据格式(如把文字改成数字)。
1. 原材料准备 (data.csv)
程式碼片段
xingming,fenshualice,100ben,98keely,87delio,99
2. 第17-18天完整代码
Python
import pandas as pd# 1. 读取数据df = pd.read_csv('data.csv')# 2. 列重命名 (把英文列名改成正规中文)# columns={'旧列名': '新列名'}df_renamed = df.rename(columns={'xingming': '姓名', 'fenshu': '分数'})print("--- 1. 修改列名后的表格 ---")print(df_renamed)# 3. 类型转换 (把“分数”从文字转成纯数字,方便后面计算)# astype() 用于强制转换数据类型df_renamed['分数'] = df_renamed['分数'].astype(int)# 4. 保存结果df_renamed.to_csv('renamed_data.csv', index=False)print("\n--- 2. 修改完毕并保存成功 ---")
【第19-21天】实际应用:数据分组聚合(类似Excel数据透视表)
1. 原材料准备 (data.csv)
程式碼片段
name,class,scorealice,A,100ben,B,98keely,A,86delio,B,90
2. 第19-21天完整代码
Python
import pandas as pd# 1. 读取数据df = pd.read_csv('data.csv')# 2. 按班级(class)分组,并计算每班的平均分# groupby('分组列') 将数据打包,['计算列'].mean() 计算每组结果class_avg = df.groupby('class')['score'].mean()print("--- 1. 各班平均分 ---")print(class_avg)# 3. 按班级(class)分组,计算每班的总分class_sum = df.groupby('class')['score'].sum()print("\n--- 2. 各班总分 ---")print(class_sum)# 4. 保存分组结果class_avg.to_csv('class_report.csv')print("\n--- 3. 分组报告已保存 ---")
【第22-25天】高级进阶:多表合并与关联(类似Excel的VLOOKUP)
1. 原材料准备 (需要新建两个文件)
程式碼片段
name,agealice,18ben,19keely,18
程式碼片段
name,scorealice,100ben,98keely,87
2. 第22-25天完整代码
Python
import pandas as pd# 1. 读取两个独立的数据表df_info = pd.read_csv('info.csv')df_score = pd.read_csv('score.csv')# 2. 多表合并 (通过共同的 'name' 列将两张表拼成大表)# merge(表1, 表2, on='共同列名')df_combined = pd.merge(df_info, df_score, on='name')print("--- 1. 关联合并后的完整表格 ---")print(df_combined)# 3. 纵向拼接 (如果有两个班级的表,需要上下接起来)# concat([表1, 表2], ignore_index=True)df_all = pd.concat([df_info, df_info], ignore_index=True)print("\n--- 2. 纵向接续后的表格 ---")print(df_all)# 4. 保存结果df_combined.to_csv('combined_data.csv', index=False)
【第26-28天】第四周终结篇:自动化办公数据总复习与综合实战
1. 第26-28天完整代码
Python
import pandas as pdprint("=== 自动化数据分析流水线启动 ===")# 1. 自动化读取df = pd.read_csv('data.csv')# 2. 自动化清洗:去重、补空值df = df.drop_duplicates()df['score'] = df['score'].fillna(0)# 3. 自动化计算与筛选avg = df['score'].mean()high_students = df[df['score'] >= 90]# 4. 控制台打印简报print(f"【分析完毕】全员平均分:{avg}")print("【高分榜单】:")print(high_students)# 5. 自动化导出最终结果high_students.to_csv('final_summary_report.csv', index=False)print("=== 自动化任务执行完毕,结果已安全生成! ===")