前段时间在用python做pdf文件识别的过程中就出现了一个问题,常规用pdf2image 和pytesseract两个文件识别pdf文件,但识别出的文件效果不好。在豆包上查了一些资料发现,识别中文最好的pdf库首选PaddleOCR(百度飞桨开源),但这个库有个最大的问题是仅支持python3.8/python3.9版本的。在python官网仅能查到3.9版本的源文件,要想安装这个3.9版本的库,必须自己编译成windows下的可执行程序。
我经过多次尝试,现将低版本python手动编译配置的一些方法分享给大家,省的大家再走弯路。
第一步:从python官网下载python3.9.25的源代码
1、选择Python3.9.25版本的最主要原因
首先声明一下,为啥要执着选择Python3.9.25的源代码,依据官网的介绍,python3.9.25是目前最新的一个版本。

官网截图

这也是我一直执着于下载Python3.9.25版本的最主要原因,另外一个原因就是Python3.9.25是Python3.9系列版本中补丁最全的一个版本,可以减少后期使用该Python的一些麻烦。
2、如何下载
(1)打开浏览器,在浏览器中输入:http://www.python.org网址,这个是Python源代码的官网。

在里面选择“Downloads”
(2)下载Python3.9.25的源程序

选择黄色区域的“Download”后,会出现一个界面,翻到最下方

这块我用豆包查过资料,这两个文件选第一个就行“Gzipped source tarball”,这个文件用windows下的winzip和7Z都能打开,而另一个“XZ compressed source tarball”文件我没尝试,根据豆包的说法是文件会打不开。

(3)解压
一般用win11/win10自带的winzip软件打开这个解压包解压就行。
第二步:安装并配置visual studio软件
1、visual studio软件下载
打开官网https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/,我选择了2022版
2、软件安装配置
(1)下载完成后,必须勾选的组建,这些组建必须选择上

另外需要说明一点:我在后续编译python3.9.25时还是遇到了无法编译的情况,所以除了以上几个必选项外,还需增加几个必选项

这两个必选项也必须选择上,特别是windows 10 SDK这个选项。
第三步:编译及配置
1、解压python3.9.25源码
将下载的 Python 3.9.25 源码包(tar.xz/tar.gz)解压到纯英文路径,比如 D:\python-3.9.25。
2、打开 VS2022 专用命令行工具
必须用这个命令行(自动配置编译环境):
按下 Win 键,搜索「x64 Native Tools Command Prompt for VS 2022」。
右键以「管理员身份」运行(避免权限不足)。
3、下载编译依赖
在命令行中进入源码目录,执行依赖下载脚本:
cmd命令行: # 进入源码目录(替换为你的解压路径) cd D:\python-3.9.25 # 下载编译所需的外部依赖(xz、zlib 等) .\PCbuild\get_externals.bat |
等待脚本执行完成(可能需要下载几十 MB 文件),无报错则依赖准备完成。
4、编译 Python 3.9.25 源码
(1)配置编译参数(兼容 VS2022)
Python 3.9 默认找 VS2019 的 v142 工具集,需手动指定工具集版本,执行以下命令:
cmd # 进入 PCbuild 目录 cd PCbuild # 配置编译参数(指定 v142 工具集,64 位版本) set VSCMD_ARG_TGT_ARCH=x64 set MSVC_VERSION=14.2 |
(2)执行编译
运行编译脚本(生成可执行程序,约 10-30 分钟,视电脑性能而定):
cmd # 核心编译命令:-e 生成完整环境,-p x64 64位,-t Build 仅编译(跳过测试) build.bat -e -p x64 -t Build |
编译过程中会有大量日志输出,只要没有「error」级别的报错(警告 warning 可忽略),就说明编译正常。
(3)最后测试一下
cmd >cd amd64 >python --version Python 3.9.25 |

最后显示 python 3.9.25,说明python3.9.25就安装成功了!恭喜你,又攻克了一大难题!!
五、最后:避坑指南!这些错别再踩了
1、路径别带中文!
解压目录和安装路径里别出现 “我的文档”“下载” 这类中文,Python 会 “看不懂中文”,编译到一半报错。
2、控制台别选错!
一定要用 VS 自带的 “Native Tools Command Prompt”,普通 cmd 窗口没编译器,会提示 “找不到 cl.exe”;
耐心等编译! 别看到黑窗口跳代码就慌,最低配置的电脑也顶多等 10 分钟,中途关掉等于 “乐高拼一半拆了重拼”。
3、报错「找不到 Windows 10 SDK 10.0.19041.0」:
回到 VS2022 安装程序,「修改」->「单个组件」-> 勾选该 SDK 版本,补装后重试。
编译速度慢:关闭其他占用 CPU 的程序,或在 build.bat 后加 -m 参数启用多线程编译(比如 build.bat -e -p x64 -m 8,8 为 CPU 核心数)。
4、权限不足:
确保命令行工具以「管理员身份」运行。
怎么样?亲手编译 Python 是不是没想象中难?下次再遇到低版本 “失踪”,直接按这个攻略来,比到处求别人发安装包靠谱多了!
如果编译时遇到奇奇怪怪的报错,或者有更顺手的操作技巧,评论区聊聊 —— 咱程序员的快乐,不就是互相踩坑互相救嘛!