Agent Browser 快速上手指南
简介
Agent Browser 是 Vercel 开发的浏览器自动化 CLI 工具,用于 AI 代理与网站交互。
安装
npm install -g @vercel/agent-browser
或直接使用 npx:
npx @vercel/agent-browser <command>
核心概念:元素引用 (@e1, @e2, ...)
这是 Agent Browser 最核心的概念!每次执行 snapshot -i 后,页面上的可交互元素会获得引用编号如 @e1、@e2、@e3 等。
示例输出:
@e1 [input type="email"] placeholder="邮箱"
@e2 [input type="password"] placeholder="密码"
@e3 [button] "登录"
@e4 [a] "忘记密码?"
@e5 [checkbox] "记住我"
核心命令速查
导航与控制
| 命令 | 说明 |
|---|---|
agent-browser open <url> | 打开网页 |
agent-browser close | 关闭浏览器 |
agent-browser snapshot -i | 获取页面元素快照(最重要!) |
交互操作(必须先 snapshot 获取 @e1 引用)
| 命令 | 说明 |
|---|---|
agent-browser click @e1 | 点击元素 |
agent-browser click @e1 --new-tab | 点击并在新标签页打开 |
agent-browser fill @e1 "text" | 清除并输入文本 |
agent-browser type @e1 "text" | 输入文本(不清除) |
agent-browser select @e1 "option" | 选择下拉选项 |
agent-browser check @e1 | 勾选复选框 |
agent-browser uncheck @e1 | 取消勾选 |
agent-browser hover @e1 | 悬停元素 |
agent-browser drag @e1 @e2 | 拖拽元素 |
agent-browser upload @e1 file.pdf | 上传文件 |
agent-browser scroll down 500 | 向下滚动 |
agent-browser press Enter | 按键 |
获取信息
| 命令 | 说明 |
|---|---|
agent-browser get text @e1 | 获取元素文本 |
agent-browser get value @e1 | 获取输入框值 |
agent-browser get html @e1 | 获取元素 HTML |
agent-browser get attr @e1 href | 获取元素属性 |
agent-browser get url | 获取当前 URL |
agent-browser get title | 获取页面标题 |
等待
| 命令 | 说明 |
|---|---|
agent-browser wait @e1 | 等待元素出现 |
agent-browser wait --load networkidle | 等待网络空闲(最常用!) |
agent-browser wait --url "**/dashboard" | 等待 URL 匹配 |
agent-browser wait 2000 | 等待毫秒数 |
捕获与状态
| 命令 | 说明 |
|---|---|
agent-browser screenshot | 截图 |
agent-browser screenshot --full | 整页截图 |
agent-browser screenshot --annotate | 带编号标注的截图 |
agent-browser pdf output.pdf | 保存为 PDF |
agent-browser state save login.json | 保存登录状态 |
agent-browser state load login.json | 加载登录状态 |