这本书在数据分析圈子里地位很特殊——作者Wes McKinney就是pandas库的创造者。你用的那个pd.read_csv(),就是他写的。从这个角度说,没人比他更懂怎么用pandas处理数据。
第三版更新的东西很实在:Python 3.10和pandas 1.4。如果你还在用老版本,里面的有些方法可能已经变了,注意对照。内容结构挺清晰的:第一部分讲Python基础和NumPy入门;第二部分是重头戏,数据清洗、规整、可视化、时间序列这些真正干活的东西;最后是5个实战案例。整本书的核心就一件事——怎么用pandas和NumPy把乱七八糟的数据收拾服帖。
说几个真实的槽点。一是翻译质量确实一般,有读者反映表2-1把异或的逻辑都翻译错了。能看原版尽量看原版,不行的话看代码也能猜个大概。二是这本书讲的是“用Python处理数据”,不是“数据分析方法论”。你想学统计学、建模思路、业务分析,这书帮不了你。三是知识点确实杂,很多代码作者一句话带过,得自己查文档才能搞明白。
总的来说,这本书适合已经知道数据分析要干什么、但不知道用Python怎么干的人。边看边敲代码,别光读。另外别指望看一遍就全记住,当工具书用,用到哪章翻哪章就行。