适用读者:有 Python 基础的 AI 爱好者,想让大模型真正"动手"操作桌面应用的实践者。
作者:虾米AI派 | 2025-05-04
痛点:AI 说了不算?
用过 Claude、MiniMax、Gemma 等大模型的读者,往往会遇到一个尴尬时刻:AI 给出了完美的操作建议,但它只能"说",不能"做"。
你想让它帮你填一个网页表单,它只能输出文字,你得自己复制粘贴;你想让它操作终端,它只能给你命令,你得自己敲进 CLI;你想让它自动整理桌面文件,它只能说"建议打开文件管理器……"
问题的根源在于:大多数 AI Agent 运行在沙盒里,和真实桌面环境完全隔离。
本文的目标,就是拆掉这道墙。拆法有两种:
-
- 一层皮:让 AI 生成的命令自动执行(Hermes + 工具链)
-
- 一只手:让 AI 直接控制鼠标、键盘、窗口(桌面自动化)
-
我们重点讲第二种,从 Linux macOS Windows 三个平台分别展开。
Linux:xdotool — X11 桌面自动化的瑞士军刀
实验环境:Ubuntu 24.04 + KDE Plasma + X11(DISPLAY=:10),Chrome 147 已装
工具链一览
Linux 桌面自动化有三条成熟链路:
| 方案 | 核心能力 | 安装方式 |
xdotool | 键盘/鼠标模拟、窗口操作 | apt install xdotool |
KRunner dbus | 启动应用、搜索查询 | 系统自带 |
KWin dbus | 窗口移动/缩放/切换 | 系统自带 |
| Chrome CDP | 控制浏览器标签页 | Chrome 远程调试 |
pyatspi | 读取/控制 GTK/Qt 应用 UI 元素 | apt install python3-atspi |
ldtp | Linux GUI 测试框架 | pip install ldtp |
xdotool:键盘鼠标一网打尽
xdotool 是 Linux 下最成熟的 X11 自动化工具,模拟人的键鼠操作,工作在 X11 协议层,不依赖被控应用的 API。
# 安装
sudo apt install xdotool
# 找窗口:搜索标题含 "Firefox" 的窗口
xdotool search --name "Firefox"
# 激活窗口(聚焦到前台)
xdotool windowactivate --sync 2097154
# 模拟键盘输入
xdotool type "Hello Hermes"
# 模拟快捷键:Ctrl+V(粘贴)
xdotool key Ctrl+v
# 模拟鼠标:移动到屏幕坐标 (100, 200) 并点击
xdotool mousemove 100 200 click 1
# 获取当前鼠标位置
xdotool getmouselocation

与 Hermes 联动:让 AI 真正执行
配合 Hermes 的 function calling,模型可以根据用户意图生成本地命令并执行,而不只是输出文字。
import subprocess
def run_xdotool(cmd):
result = subprocess.run(
cmd.split(),
capture_output=True, text=True
)
return result.stdout.strip()
action = run_xdotool("xdotool search --name 'Firefox' | head -1")
print(f"Firefox 窗口 ID: {action}")
KRunner dbus:应用启动与搜索
import subprocess
def krunner_launch(app_name):
result = subprocess.run(
["timeout", "3", "krunner", app_name],
capture_output=True, text=True
)
return result.returncode == 0
krunner_launch("firefox")
实测 krunner "firefox" 返回码为 0,KRunner 已通过 dbus 成功接收请求。
KWin dbus:窗口管理器级控制
# 列出当前所有窗口
qdbus org.kde.KWin /KWin org.kde.KWin.WindowList
# 将窗口移动到指定位置并调整大小
qdbus org.kde.KWin /KWin org.kde.KWin.TabBox.windowMoveResize 2097154 100 100 800 600
Chrome CDP:让 AI 操作浏览器
google-chrome --remote-debugging-port=9222
import json, urllib.request
def cdp_cmd(port, method, params={}):
url = f"http://localhost:{port}/json/{method}"
req = urllib.request.Request(
url,
data=json.dumps(params).encode(),
headers={"Content-Type": "application/json"}
)
with urllib.request.urlopen(req) as resp:
return json.loads(resp.read())
result = cdp_cmd(9222, "Runtime.evaluate", {
"expression": "document.title"
})
macOS:AppleScript + pyobjc,原生体验
AppleScript:macOS 的天然自动化接口
# 在 Finder 中新建文件夹
osascript -e 'tell application "Finder" to make new folder at desktop'
# 打开指定应用
osascript -e 'tell application "Safari" to activate'
# 获取 Safari 当前标签页标题
osascript -e 'tell application "Safari" to name of current tab of window 1'

appscript:在 Python 里写 AppleScript
pip install appscript
from appscript import app, mactypes
finder = app("Finder")
finder.activate()
safari = app("Safari")
safari.activate()
print(safari.windows[1].current_tab.name())
pyobjc:调用 macOS 系统级 API
pip install pyobjc-framework-ApplicationServices
from ApplicationServices import AXUIElement
app = AXUIElement.application_(1000)
focused = AXUIElement.copyAttributeValue(
app, "AXFocusedUIElement"
)
pyautogui:跨平台代码迁移到 macOS
pip install pyautogui
import pyautogui
pyautogui.moveTo(100, 200, duration=0.5)
pyautogui.click()
pyautogui.write("Hello, Hermes!")
pyautogui.hotkey("command", "v") # macOS 用 command,非 Ctrl
macOS 注意事项:pyautogui 需要开启"辅助功能"权限(系统设置 → 隐私与安全性 → 辅助功能),否则会被系统拦截。
Windows:pywinauto + CDP,最成熟方案
pywinauto:Windows GUI 自动化的标杆
pip install pywinauto
from pywinauto import Application
app = Application(backend="win32").start("notepad.exe")
editor = app.window(title="无标题 - 记事本")
editor.wait("visible")
editor.Edit.type_keys("Hello from Hermes!", with_tabs=True)
editor.menu_select("文件(F)->保存(S)")

窗口定位的多种方式
# 方式 1:窗口类名
app = Application(backend="win32").connect(class_name="Notepad")
# 方式 2:进程 PID
app = Application(backend="win32").connect(process=1234)
# 方式 3:可访问性标题(支持模糊匹配)
editor = app.window(title_re=".*记事本.*")
读取 UI 元素树(Windows 原生支持!)
from pywinauto import Application
app = Application(backend="uia").connect(title="设置")
app.window(title="设置").print_control_identifiers()
输出示例:
Button('网络和 Internet')
Button('蓝牙和设备')
Button('个性化')
Button('系统')
这意味着你可以让 AI根据 UI 元素名称动态生成操作,而不只是硬编码坐标。
Chrome CDP:Windows 下的浏览器控制
与 Linux 完全相同的接口,一套代码跨平台复用。
跨平台统一接口:pyautogui 一套代码跑三平台
import pyautogui
pyautogui.FAILSAFE = True
pyautogui.PAUSE = 0.5
pyautogui.moveTo(200, 300, duration=1)
pyautogui.click(clicks=2, interval=0.2)
pyautogui.write("hello world", interval=0.1)
pyautogui.hotkey("ctrl", "a")

三平台横向对比总结
| 维度 | Linux | macOS | Windows |
| 键鼠模拟 | xdotool / pyautogui | pyautogui / CGEvent | pywinauto / pyautogui |
| 窗口管理 | xdotool / KWin dbus | pyosicat / pyobjc | pywinauto |
| 应用启动 | KRunner dbus | AppleScript / osascript | subprocess / pywinauto |
| UI 元素读取 | pyatspi / ldtp | Accessibility API | MS UI Automation(原生) |
| 浏览器控制 | Chrome CDP | Chrome CDP | Chrome CDP |
| 系统原生支持 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 开箱即用程度 | 需安装 xdotool | AppleScript 自带 | pywinauto 需 pip |
结论:Windows 的 pywinauto + UI Automation 是三平台里体验最完整的,UI 元素树天然可读,脚本稳定性最高;macOS 的 AppleScript 生态成熟,原生应用覆盖完整;Linux 生态最分散,但 xdotool + KRunner dbus 组合足以应对大多数场景。
下一步可以做的选题
-
- 实战篇:用 xdotool 写一个"AI 帮我自动填表"的完整 Demo
-
- 评测篇:三平台 GUI 自动化工具横评(稳定性 × 速度 × 易用性)
-
- 架构篇:如何设计一个"AI 桌面 Agent"的工具调用层
-
你最想看哪篇?留言告诉我。