我们平时跟AI聊天,它也就动动嘴皮子。但这个WebUI不一样,它能让AI真的去操作你的浏览器——点按钮、填表单、登录账号、甚至跨网页完成复杂任务。这玩意儿,怎么说呢,感觉就像给AI装上了眼睛和手。
这玩意儿到底能干啥?
简单说吧,你给AI一个任务,比如“帮我查一下明天北京到上海的机票,然后找个评分4.5以上的酒店”,它自己就打开浏览器,去搜索、比对、最后给你整理出结果。
我刚开始用的时候也觉得挺玄乎,但它确实是这么干的。而且你猜怎么着?它的底层用的是browser-use那个框架,但WebUI给包装成了一个图形界面,不用敲命令,点一点就能用。
最让我心动的几个点
支持的模型多到离谱
Google、OpenAI、Azure OpenAI、Anthropic、DeepSeek、Ollama...基本你能叫上名字的它都支持了。我平时主要用DeepSeek,便宜又好用,接上去就能跑。项目方说后续还要加更多,嗯,期待一手。
可以用你自己的浏览器
这个功能真得单独夸一下。很多类似工具让你用内置浏览器,结果就是每次都要重新登录各种网站,巨烦。WebUI允许你用自己日常用的Chrome,登录状态全都保留,cookie不用重新弄。而且支持高清录屏,你看AI操作的时候清清楚楚。
会话是持久的
AI做完一个任务,浏览器窗口不关,你可以接着让它做下一个。这样它能记住之前的状态,不会每次都是新开页面重新来过。连续做多个相关任务的时候,这个特性贼爽。
安装难不难?
我两个方式都试过,给你说说。
本地安装的话,几步走:克隆代码、创建虚拟环境、装依赖、配置API密钥、运行。大概十来分钟能搞定吧。
Docker就更简单了,docker compose up --build 一条命令,等它自己跑完就行。Windows用户注意一下,如果用自定义浏览器,别在Chrome里打开WebUI,用Firefox或者Edge都行。
一个小坑提醒:如果你要用自己的Chrome浏览器,记得把所有Chrome窗口都关掉,不然会冲突。我一开始不知道,卡了半小时才反应过来。
实际操作体验
跑起来之后,浏览器打开 http://127.0.0.1:7788,界面挺清爽的。先在设置里选好你要用的模型,填上API密钥。如果你要用自己的浏览器,记得勾选那个“Use Own Browser”选项。
然后就可以输入任务了,比如“帮我搜索一下Python异步编程的最佳实践”。看着AI自己打开网页、滚动页面、点击链接,说实话有种看科幻片的感觉。
不过也得实话实说,这玩意儿不是完美的。复杂任务有时候会卡住,或者理解错你的意思。但考虑到它开源免费,而且是近几个月才火起来的项目,已经很能打了。
谁适合用这个?
如果你写爬虫,可以让AI帮你分析网页结构;如果你做自动化测试,它能帮你生成操作流程;如果你就是个普通用户,想让AI帮你订票、比价、填表什么的,同样用得上。
当然啦,需要你自己有大模型的API密钥才行。免费的用Ollama跑本地模型,或者申请DeepSeek的API,都比较划算。
项目地址放这儿了,感兴趣的自己去看吧:
https://github.com/browser-use/web-ui
最后说一句,这种AI操控浏览器的工具,我觉得未来会越来越普及。早点上手试试,说不定能帮你省下不少重复劳动的功夫。