当前位置：首页>python>刚写好的功能,平台直接停用了:我的 Python 自动化开发一波三折实录

刚写好的功能,平台直接停用了:我的 Python 自动化开发一波三折实录

2026-03-27 08:00:53

(本文2500字左右，阅读时间约为9min，已经过AI润色，排版由wechat-publisher工具自动生成)

上一篇内容我们完成了受限办公环境下的全链路开发资源搭建，接下来就要进入核心的代码开发阶段。我最初的目标非常明确：先搞定自动登录

一、从 0 到 1：先吃透 PyAutoGUI，完成第一个系统的自动化

很多人对 RPA（机器人流程自动化）的第一印象是 "高大上的商业软件"，但其实 Python 的 PyAutoGUI 库，就能实现轻量级、完全定制化的桌面 RPA。我先和 AI 一起梳理了 PyAutoGUI 的核心逻辑，挑了几个最关键、最常用的功能快速上手，没有去啃厚厚的官方文档

先搞懂最基础的：屏幕坐标系

在开始写自动化代码前，必须先建立一个清晰的认知：电脑屏幕的坐标系和数学坐标系不一样

原点（0, 0）在显示器的左上角
向右是 X 轴的正方向，向下是 Y 轴的正方向
分辨率（比如 1920×1080）就是屏幕的最大 X 和最大 Y 坐标

这个坐标系是所有 PyAutoGUI 操作的基础，不管是移动鼠标、点击还是找图，都要基于这个逻辑

我没有学所有的 API，只重点掌握了3类能覆盖 90% 桌面自动化场景的核心功能，其他操作简单了解即可

图像识别定位

这是轻量级 RPA 的核心，不用依赖网页 DOM、应用接口，只靠屏幕截图就能定位按钮、输入框

import pyautogui# 查找图片的中心点坐标（最常用，直接点击）# confidence是置信度，0-1之间，越高越严格，需要安装Pillow库支持center_pos = pyautogui.locateCenterOnScreen('login_button.png', confidence=0.9)if center_pos:  # 必须先判断是否找到，否则会报错    pyautogui.click(center_pos)

安全的文字输入

PyAutoGUI 自带的typewrite会受输入法、大小写锁定影响，非常不稳定。我和 AI 一起找到了更稳妥的方案：用pyperclip把文字复制到剪贴板，再用快捷键粘贴

import pyperclip import pyautogui  # 安全粘贴文字 def safe_paste(text):         pyperclip.copy(text)         pyautogui.hotkey('ctrl', 'v', interval=0.1)  # 加间隔防止系统无响应

其他基础操作

这些都是要用到操作，简单了解即可上手

鼠标点击：pyautogui.click()、pyautogui.doubleClick()

键盘按键：pyautogui.press('enter')、pyautogui.hotkey('ctrl', 'c')

窗口管理：pygetwindow.getWindowsWithTitle()、window.activate()、window.maximize()

二、完成第一个系统的自动化：ME 系统

我选了当时最常用、登录流程最繁琐的 ME 系统练手，先把完整的登录流程拆解成了标准化的步骤：

用世界之窗浏览器打开系统网址（这个系统只能用该浏览器才能兼容）
激活并最大化浏览器窗口，确保它不在后台趴着
通过 Tab 键来切换输入用户名密码
回车登录
用 Alt+Tab 加上 Alt+F4 快捷键关闭弹出的多余的通知窗口
点击弹出小窗口上的绿色对勾

第一步就需要用webbrowser这个库的open方法打开网址，然后用pygetwindow库进行窗口操作来聚焦窗口；第三步要用到pyautogui中的press方法，以及用pyperclip库中的复制信息，复制 yaml 配置文件中的内容，再用hotkey方法粘贴进去；第五步要用到快捷键hotkey方法；第六步用到比较核心的方法了，就是识别图像并找到中心坐标的方法locateCenterOnScreen，并结合click方法来点击

很快，第一版 ME 系统的自动登录代码就写好了，测试了几次都能成功，我当时非常兴奋，觉得整个工具的开发已经大获成功

三、突发变故：刚写好的系统，直接被公司停用了

可就在我准备拓展更多功能、把雏形分享给同事试用的时候，公司发布了生产系统全面升级的通知：我开发适配的 ME、AMMS 等老系统，全部停用，整体切换到全新的 MRO、文档云平台

看着刚写好的几百行代码，我当时差点直接放弃了这个项目。但冷静下来后我发现，这次系统更换，看似是绝境，实则是一个沉淀通用化 RPA 底层逻辑的绝佳机会 —— 如果我能把代码写得通用性、鲁棒性更强，哪怕以后再换系统，也不用全部重写

四、从 1 到通用：重构底层逻辑，让代码更健壮、更易复用

我没有直接去适配新系统，而是先停下来，复盘了第一版代码的所有问题，然后和 AI 一起，重构了整个 RPA 的底层框架

问题 1：容错率太低，一次错位全流程崩溃

第一版代码里，图像识别处仅执行单次检测，未通过循环机制实现重复识别、冗余检测。然后通过估算每个操作步骤之间的等待时间，用time.sleep让程序暂停，从而实现程序与实际操作的对齐。但办公电脑性能和网络波动都很大，一旦运行慢了半拍，操作就会错位，后面所有流程都会报错

解决方案

加入循环等待 + 超时退出的机制，每一步都等目标元素出现，而不是靠固定的时间等待

我把这个逻辑封装成了通用的函数，放在了general.py文件里，所有系统的自动化都可以复用：

import pyautoguiimport timedef mouse_move_center(img_path, img_name, max_time=0.2, confidence=0.9, interval=0.1):    """    让鼠标移动到识别图像中间的位置    """    full_path = os.path.join(img_path, img_name)    max_loops = max(2, int(max_time / interval))    position = find_img_center(full_path, confidence, max_loops, interval)    if position:        pyautogui.moveTo(position)        time.sleep(0.1)    flag = bool(position)    return flag, full_pathdef find_img_center(img_path, confidence, max_loops, interval):    """    查找一个图片的中间坐标    """    for i in range(max_loops):        try:            position = pyautogui.locateCenterOnScreen(img_path, confidence=confidence)            return position        except pyautogui.ImageNotFoundException:            pass        time.sleep(interval)    return None

问题 2：没有状态判断，不知道当前在哪一步

第一版代码是 "线性" 的，没有任何状态判断，一旦中间出现弹窗、系统卡顿，就会完全乱掉

解决方案

加入页面状态机的逻辑 —— 每个页面都找一个独特的、不会变的元素作为 "状态标志"，识别到这个标志，就知道当前在哪一步，该执行什么操作

比如文档云的登录，我就设置了多个状态判断：

def judge_case():    """判断当前在什么界面"""    time.sleep(1)    for i in range(20):        pyautogui.hotkey('ctrl', '0', interval=0.1)        flag1, _ = mouse_move_center(cloud_img_path, 'already_login.png')        if flag1:            return 1        else:            flag2, _ = mouse_move_center(cloud_img_path, 'login_interface.png')            flag3, _ = mouse_move_center(cloud_img_path, 'login_interface_150.png')            if flag2 or flag3:                return 2        time.sleep(0.1)

问题 3：验证码识别没有容错，一次失败就结束

新系统都加了验证码，我用了之前找到的ddddocr库做本地识别，但识别准确率还达不到 100%，偶尔会出错

解决方案

加入验证码重试机制 —— 识别后先尝试登录，如果页面出现 "验证码错误" 的提示，就刷新验证码，重新识别、重新登录，大部分情况不会失误超过 3 次

def try_ocr(img_path, error_img_name, ocr_pos, captcha_pos, confidence=0.9, tries=10, interval=0.2):    """多次尝试验证码识别"""    error_path = os.path.join(img_path, error_img_name)    for i in range(tries):        captcha = ocr(ocr_pos)        safe_paste(captcha)        time.sleep(interval)        pyautogui.press('enter')        time.sleep(interval)        flag = bool(find_img_center(error_path, confidence, tries, interval))        if not flag:            break        time.sleep(0.5)        pyautogui.click(*captcha_pos, clicks=3, interval=0.1)        time.sleep(0.5)

问题 4：代码耦合度太高，换系统要重写所有逻辑

第一版代码里，通用的键鼠操作、图像识别，和特定系统的业务逻辑混在一起，换系统就要改很多地方

解决方案

做模块化解耦 —— 把通用的工具函数放在general.py里；把特定系统的业务逻辑放在单独的文件里（比如mro.py、document_cloud.py）；把所有配置放在config_constant.yaml里，不用改代码，只改配置就能适配不同的环境

四、通用化后的成果：快速适配所有新平台，成功率 95% 以上

重构完底层逻辑后，我再去适配新的 MRO、文档云、TAOIX 等系统，速度快了不止一倍 —— 只需要：

截好每个页面的状态标志图
把业务流程拆解成状态机的步骤
调用general.py里的通用函数，写少量的业务逻辑代码

很快，我就完成了所有新平台的自动操作，不仅如此，代码的健壮性也大大提升：

成功率基本在 95% 以上
失败的时候，大部分是因为系统本身有 bug，或者电脑实在太卡

后续我又新增了很多相对简单但非常实用的功能：自动创建 Excel 航材需求单并按当班信息修改、自动打印固定格式的 Word 单据、自动打开常用的网页或文件…… 这个工具，真正从一个 "单一的自动登录脚本"，变成了一个覆盖岗位全工作流的 "万用工具箱"

代码跑通了，自动化成了，可我却卡在了「让同事用起来」这一步

命令行再好用，对不懂代码的人来说，就是一道跨不过去的门槛

下一篇，再次从零开始，用 AI 教我的 Tkinter，给这个工具做一个人人都能上手的 GUI 界面，顺便把待办管理、信息看板这些功能全整合进去

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

刚写好的功能,平台直接停用了:我的 Python 自动化开发一波三折实录

最新文章

热门文章

随机文章

刚写好的功能,平台直接停用了:我的 Python 自动化开发一波三折实录

告别单一路径:我在 Python 的分支里,看见世界如何展开

Python生物医药建模教学资源大全2026年3月

最新文章

热门文章

随机文章