(本文2500字左右,阅读时间约为9min,已经过AI润色,排版由wechat-publisher工具自动生成)
上一篇内容我们完成了受限办公环境下的全链路开发资源搭建,接下来就要进入核心的代码开发阶段。我最初的目标非常明确:先搞定自动登录
一、从 0 到 1:先吃透 PyAutoGUI,完成第一个系统的自动化
很多人对 RPA(机器人流程自动化)的第一印象是 "高大上的商业软件",但其实 Python 的 PyAutoGUI 库,就能实现轻量级、完全定制化的桌面 RPA。我先和 AI 一起梳理了 PyAutoGUI 的核心逻辑,挑了几个最关键、最常用的功能快速上手,没有去啃厚厚的官方文档
先搞懂最基础的:屏幕坐标系
在开始写自动化代码前,必须先建立一个清晰的认知:电脑屏幕的坐标系和数学坐标系不一样
- 分辨率(比如 1920×1080)就是屏幕的最大 X 和最大 Y 坐标
这个坐标系是所有 PyAutoGUI 操作的基础,不管是移动鼠标、点击还是找图,都要基于这个逻辑
我没有学所有的 API,只重点掌握了3类能覆盖 90% 桌面自动化场景的核心功能,其他操作简单了解即可
图像识别定位
这是轻量级 RPA 的核心,不用依赖网页 DOM、应用接口,只靠屏幕截图就能定位按钮、输入框
import pyautogui# 查找图片的中心点坐标(最常用,直接点击)# confidence是置信度,0-1之间,越高越严格,需要安装Pillow库支持center_pos = pyautogui.locateCenterOnScreen('login_button.png', confidence=0.9)if center_pos: # 必须先判断是否找到,否则会报错 pyautogui.click(center_pos)
安全的文字输入
PyAutoGUI 自带的typewrite会受输入法、大小写锁定影响,非常不稳定。我和 AI 一起找到了更稳妥的方案:用pyperclip把文字复制到剪贴板,再用快捷键粘贴
import pyperclip import pyautogui # 安全粘贴文字 def safe_paste(text): pyperclip.copy(text) pyautogui.hotkey('ctrl', 'v', interval=0.1) # 加间隔防止系统无响应
其他基础操作
这些都是要用到操作,简单了解即可上手
- 鼠标点击:pyautogui.click()、pyautogui.doubleClick()
- 键盘按键:pyautogui.press('enter')、pyautogui.hotkey('ctrl', 'c')
- 窗口管理:pygetwindow.getWindowsWithTitle()、window.activate()、window.maximize()
二、完成第一个系统的自动化:ME 系统
我选了当时最常用、登录流程最繁琐的 ME 系统练手,先把完整的登录流程拆解成了标准化的步骤:
- 用世界之窗浏览器打开系统网址(这个系统只能用该浏览器才能兼容)
- 用 Alt+Tab 加上 Alt+F4 快捷键关闭弹出的多余的通知窗口
第一步就需要用webbrowser这个库的open方法打开网址,然后用pygetwindow库进行窗口操作来聚焦窗口;第三步要用到pyautogui中的press方法,以及用pyperclip库中的复制信息,复制 yaml 配置文件中的内容,再用hotkey方法粘贴进去;第五步要用到快捷键hotkey方法;第六步用到比较核心的方法了,就是识别图像并找到中心坐标的方法locateCenterOnScreen,并结合click方法来点击
很快,第一版 ME 系统的自动登录代码就写好了,测试了几次都能成功,我当时非常兴奋,觉得整个工具的开发已经大获成功
三、突发变故:刚写好的系统,直接被公司停用了
可就在我准备拓展更多功能、把雏形分享给同事试用的时候,公司发布了生产系统全面升级的通知:我开发适配的 ME、AMMS 等老系统,全部停用,整体切换到全新的 MRO、文档云平台
看着刚写好的几百行代码,我当时差点直接放弃了这个项目。但冷静下来后我发现,这次系统更换,看似是绝境,实则是一个沉淀通用化 RPA 底层逻辑的绝佳机会 —— 如果我能把代码写得通用性、鲁棒性更强,哪怕以后再换系统,也不用全部重写
四、从 1 到通用:重构底层逻辑,让代码更健壮、更易复用
我没有直接去适配新系统,而是先停下来,复盘了第一版代码的所有问题,然后和 AI 一起,重构了整个 RPA 的底层框架
问题 1:容错率太低,一次错位全流程崩溃
第一版代码里,图像识别处仅执行单次检测,未通过循环机制实现重复识别、冗余检测。然后通过估算每个操作步骤之间的等待时间,用time.sleep让程序暂停,从而实现程序与实际操作的对齐。但办公电脑性能和网络波动都很大,一旦运行慢了半拍,操作就会错位,后面所有流程都会报错
解决方案
加入循环等待 + 超时退出的机制,每一步都等目标元素出现,而不是靠固定的时间等待
我把这个逻辑封装成了通用的函数,放在了general.py文件里,所有系统的自动化都可以复用:
import pyautoguiimport timedef mouse_move_center(img_path, img_name, max_time=0.2, confidence=0.9, interval=0.1): """ 让鼠标移动到识别图像中间的位置 """ full_path = os.path.join(img_path, img_name) max_loops = max(2, int(max_time / interval)) position = find_img_center(full_path, confidence, max_loops, interval) if position: pyautogui.moveTo(position) time.sleep(0.1) flag = bool(position) return flag, full_pathdef find_img_center(img_path, confidence, max_loops, interval): """ 查找一个图片的中间坐标 """ for i in range(max_loops): try: position = pyautogui.locateCenterOnScreen(img_path, confidence=confidence) return position except pyautogui.ImageNotFoundException: pass time.sleep(interval) return None
问题 2:没有状态判断,不知道当前在哪一步
第一版代码是 "线性" 的,没有任何状态判断,一旦中间出现弹窗、系统卡顿,就会完全乱掉
解决方案
加入页面状态机的逻辑 —— 每个页面都找一个独特的、不会变的元素作为 "状态标志",识别到这个标志,就知道当前在哪一步,该执行什么操作
比如文档云的登录,我就设置了多个状态判断:
def judge_case(): """判断当前在什么界面""" time.sleep(1) for i in range(20): pyautogui.hotkey('ctrl', '0', interval=0.1) flag1, _ = mouse_move_center(cloud_img_path, 'already_login.png') if flag1: return 1 else: flag2, _ = mouse_move_center(cloud_img_path, 'login_interface.png') flag3, _ = mouse_move_center(cloud_img_path, 'login_interface_150.png') if flag2 or flag3: return 2 time.sleep(0.1)
问题 3:验证码识别没有容错,一次失败就结束
新系统都加了验证码,我用了之前找到的ddddocr库做本地识别,但识别准确率还达不到 100%,偶尔会出错
解决方案
加入验证码重试机制 —— 识别后先尝试登录,如果页面出现 "验证码错误" 的提示,就刷新验证码,重新识别、重新登录,大部分情况不会失误超过 3 次
def try_ocr(img_path, error_img_name, ocr_pos, captcha_pos, confidence=0.9, tries=10, interval=0.2): """多次尝试验证码识别""" error_path = os.path.join(img_path, error_img_name) for i in range(tries): captcha = ocr(ocr_pos) safe_paste(captcha) time.sleep(interval) pyautogui.press('enter') time.sleep(interval) flag = bool(find_img_center(error_path, confidence, tries, interval)) if not flag: break time.sleep(0.5) pyautogui.click(*captcha_pos, clicks=3, interval=0.1) time.sleep(0.5)
问题 4:代码耦合度太高,换系统要重写所有逻辑
第一版代码里,通用的键鼠操作、图像识别,和特定系统的业务逻辑混在一起,换系统就要改很多地方
解决方案
做模块化解耦 —— 把通用的工具函数放在general.py里;把特定系统的业务逻辑放在单独的文件里(比如mro.py、document_cloud.py);把所有配置放在config_constant.yaml里,不用改代码,只改配置就能适配不同的环境
四、通用化后的成果:快速适配所有新平台,成功率 95% 以上
重构完底层逻辑后,我再去适配新的 MRO、文档云、TAOIX 等系统,速度快了不止一倍 —— 只需要:
- 调用general.py里的通用函数,写少量的业务逻辑代码
很快,我就完成了所有新平台的自动操作,不仅如此,代码的健壮性也大大提升:
- 失败的时候,大部分是因为系统本身有 bug,或者电脑实在太卡
后续我又新增了很多相对简单但非常实用的功能:自动创建 Excel 航材需求单并按当班信息修改、自动打印固定格式的 Word 单据、自动打开常用的网页或文件…… 这个工具,真正从一个 "单一的自动登录脚本",变成了一个覆盖岗位全工作流的 "万用工具箱"
代码跑通了,自动化成了,可我却卡在了「让同事用起来」这一步
命令行再好用,对不懂代码的人来说,就是一道跨不过去的门槛
下一篇,再次从零开始,用 AI 教我的 Tkinter,给这个工具做一个人人都能上手的 GUI 界面,顺便把待办管理、信息看板这些功能全整合进去