没有数据,因子是空的
没有因子,财报是散的
没有财报,投研是虚的
对价值量化投资而言,环境是所有数据处理、因子构造的基础,就像做科研前要校准实验仪器,基础打不稳,后面所有分析都是空中楼阁。
一、为什么量化从 Python 开始?
课程中我接触过不少数据分析工具:Excel 灵活但处理海量数据乏力,MATLAB 适合科研但工业界适配性差,R语言偏统计但量化生态薄弱
而Python是唯一能打通「数据处理 - 因子构造 - 策略回测 - 实盘落地」全链路的工具,尤其对股票量化来说:
- 处理股票行情、财务数据时,Pandas/NumPy 能高效完成千万级数据的清洗、对齐
- 量化领域成熟的库(如Tushare、Backtrader)均以Python为基础,无需重复造轮子
- 学术研究的代码可直接迁移到实战,兼顾严谨性与实用性。不用贪多求全,把Python吃透,就抓住了量化的核心抓手。
二、量化环境
我曾经没太注意环境这个事情,导致每次开新的项目都手忙脚乱,环境不匹配,重新安装包..浪费时间又带来很多无效冗余。
Python环境就像专属 “工具箱”,里面装着 Python 主程序、NumPy/Pandas 等工具(库)及对应版本,专用于某类场景(如 A 股量化/科研项目)。
环境匹配则是 “工具对得上号”:跑量化代码时,环境里的库版本、Python 版本要和代码要求完全适配,比如做A股量化用的是Pandas 1.5.3(适配Tushare老版本)
研究海外市场,需要用Pandas2.0(适配海外数据源库),如果把两个版本装在同一个环境里,要么Tushare用不了,要么海外数据读不出来
这时候就需要开 2 个环境:
- 环境 1:A 股量化(Python3.10 + Pandas1.5.3 + Tushare1.2.89);
- 环境 2:海外市场研究(Python3.10 + Pandas2.0 + 海外数据库)。
搭建实操一步到位
1. 我用的 Python +PyCharm(集成开发工具),也可以用集成的Anaconda,占用空间比较大。
Python 就像咱们做饭用的食材和锅铲(R),是做菜(写量化代码、算股票数据)的核心工具,没有它啥也做不了
PyCharm是做饭的厨房操作台(RStudio)在里面操作食材和锅铲,做一整桌菜(完整量化项目,比如因子回测、策略开发)
Python 是「能干活的核心」,PyCharm/Jupyter 是「让 Python 干活更顺手的场地」。第一步:下载 Python 安装包
- Windows系统勾选「Add Python 3.12 to PATH」(自动配置环境变量,避免后续手动配置的麻烦);Mac系统无需额外勾选,默认配置
第二步:安装与验证
- 双击安装包选择「Customize installation」(自定义安装),建议把安装路径设为非C盘(如 D:\Python312),避免系统盘冗余
- 安装完成后,按下Win+R输入「cmd」打开命令提示符,输入:
python--version,若显示版本号「Python 3.12.7」则安装成功;
若提示「不是内部命令」,说明PATH未配置,需手动把 Python 安装路径添加到系统环境变量(此步骤我踩过坑,新手务必确认),可以B站找个安装视频对着一步步操作。用cmd全局安装库易导致多版本冲突,在PyCharm中为量化项目单独配置环境官网/镜像下载Community版(免费)或Professional版(科研人员可申请免费授权),安装时勾选「Add launchers dir to the PATH」 新建项目:点击「New Project」,选择「Pure Python」配置环境就盯「Python interpreter」:选「Project venv」+ 已装的 Python 版本
「Project venv」给这个量化项目单独建一个「环境文件夹」,后续装的 NumPy、Pandas 只在这个项目能用,给量化项目建一个「专属工具箱」,装库、跑代码都不会和其他项目乱套。
打开 PyCharm 的「Terminal」(底部菜单栏),依次输入以下命令安装核心库,每输完一条按回车,等待安装完成:作为日常主力编辑器,我会做 3 个关键配置,适配股票量化开发:解释器固定:进入「File→Settings→Project:xxxxxx→Python Interpreter」,确认是安装的3.12版本,避免自动切换到其他版本 代码模板:新建Python文件时,添加量化常用头部模板(如导入 numpy/pandas、设置中文显示),避免重复写基础代码 终端配置:把Terminal默认shell设为cmd(Windows)/bash(Mac),方便直接在编辑器内运行pip命令、调试代码。 安装完成后,写一段简单代码验证:读取某只股票的日线数据,计算收益率并绘图。代码能正常运行、无报错,说明环境搭建完成三、工具的意义,是回归数据本身
因子是市场中长期有效的收益规律,量化是用数据和纪律把规律变成可复制的策略。
我自己长期坚持低PE、中小市值、高ROE的均值回归策略,而这些因子的构建,第一步就是用Python把股票PE、市值、ROE 数据准确读取、清洗、标准化。
如果环境搭建潦草,数据读取时出现时间轴错位、字段缺失,哪怕因子逻辑再完美,结果也是错的。
接下来会围绕股票数据处理展开:从NumPy的数组运算,到Pandas 的股票数据清洗,再到数据标准化、行业中性化 。
美程❀前公务er 考10证 现大数据在读博士
从零→系统学 价值量化投资 全过程公开笔记