功能
浏览器自动化
智能体替你操作浏览器 —— 导航、点击、输入、读取等。
智能体通过内置工具集控制浏览器,因此你可以让它在网页上做事,而不仅是回答问题。
它能做什么
- 导航 —— 打开 URL,前进/后退。
- 读取 —— 获取页面文本或 Markdown,以及页面结构的无障碍树(accessibility tree)快照。
- 交互 —— 点击、输入、填写字段、滚动、上传文件。可按描述或按稳定的元素 id 定位元素。
- 检查 —— 查找元素、查询 DOM、读取元素详情。
- 标签页 —— 列出、查询并在已打开的标签页间切换。
- 截图 —— 抓取屏幕截图。
- 执行 JS —— 在页面上运行 JavaScript。
- 等待 —— 在继续前等待元素或条件。
它还具备**智能输入(smart input)**引擎:探测目标字段、选择最佳输入策略并验证结果。
示例
打开 Hacker News,给我热门前 5 条的标题。用我 User 资料里的信息填写此页的注册表单,但在提交前停下来让我先检查。浏览器操作遵循你的权限设置。在 Confirm before actions 下, 你逐步批准;在 Auto-execute 下,智能体自行推进。